← 용어
양자화
가중치를 저정밀도 숫자(예: 16비트 대신 4비트)로 저장해 모델 압축. 70B fp16은 140GB 필요, 같은 모델 Q4는 ~35GB. 현대 양자화 방식(Q4_K_M, AWQ, GPTQ)은 대부분 벤치마크에서 2% 미만 품질 손실. 양자화 덕에 큰 LLM이 컨슈머 하드웨어에서 돌아감.
가중치를 저정밀도 숫자(예: 16비트 대신 4비트)로 저장해 모델 압축. 70B fp16은 140GB 필요, 같은 모델 Q4는 ~35GB. 현대 양자화 방식(Q4_K_M, AWQ, GPTQ)은 대부분 벤치마크에서 2% 미만 품질 손실. 양자화 덕에 큰 LLM이 컨슈머 하드웨어에서 돌아감.