Quantization

Quantization은 모델 가중치의 수치 정밀도를 낮춰(FP32 → INT8/INT4) 메모리 사용량과 연산량을 줄이는 모델 압축 기법
정확도 손실을 최소화하면서 모델 크기를 최대 8배 축소하는 경량화 전략
동일 GPU에서 더 큰 모델 실행 또는 더 많은 동시 요청 처리를 가능하게 하는 프로덕션 최적화 방식

해당 개념이 필요한 이유

LLM은 수십~수백억 개의 파라미터를 가지며, 각 파라미터가 메모리를 차지
FP32 기준 70B 모델 → 약 280GB 메모리 필요 → 고가의 GPU 여러 장 필요
Quantization으로 INT4 변환 시 약 35GB → 단일 GPU에서도 실행 가능

AS-IS

sequenceDiagram
    autonumber
    participant Model as LLaMA-13B (FP32)
    participant GPU as GPU Memory

    Model->>GPU: 가중치 로드 (52GB)
    Note over GPU: 80GB GPU 중 52GB 사용<br/>KV Cache용 남은 공간: 28GB
    Note over GPU: 동시 처리 가능: ~7명<br/>(4K 컨텍스트 기준)

TO-BE

sequenceDiagram
    autonumber
    participant Model as LLaMA-13B (INT8)
    participant GPU as GPU Memory

    Model->>GPU: 가중치 로드 (13GB)
    Note over GPU: 80GB GPU 중 13GB 사용<br/>KV Cache용 남은 공간: 67GB
    Note over GPU: 동시 처리 가능: ~47명<br/>(4K 컨텍스트 기준)

정밀도 단계별 비교

포맷	비트 수	모델 크기 (70B 기준)	정확도 손실	적합한 용도
FP32	32bit	~280GB	기준	학습(Training)
FP16/BF16	16bit	~140GB	무시 가능	추론 기본값
INT8	8bit	~70GB	~0.04%	프로덕션 권장
INT4	4bit	~35GB	~1.9%	리소스 제약 환경

어떻게 작동하는가?

핵심 아이디어: 연속적인 실수(float) 값을 이산적인 정수(integer) 값으로 매핑

FP32 가중치:  [0.0312, -0.1875, 0.5625, -0.8750, ...]
              ↓ Quantization (INT8)
INT8 가중치:  [8, -48, 144, -224, ...]
              + Scale Factor: 0.00390625
              + Zero Point: 0

복원 시: INT8 값 × Scale Factor ≈ 원래 FP32 값

주요 Quantization 기법

기법	방식	특징
PTQ (Post-Training Quantization)	학습 완료 후 변환	재학습 불필요, 빠른 적용
GPTQ	레이어별 오차 최소화	INT4 + FP16 혼합, 정확도 유지 우수
AWQ (Activation-aware)	중요 가중치 보존	활성화 패턴 기반으로 핵심 채널 보호
QAT (Quantization-Aware Training)	학습 중 양자화 시뮬레이션	최고 정확도, 재학습 비용 발생

실생활 비유 - 수업 노트 필기

양자화 수준	실생활 비유	설명 예시	정보 보존	용량
FP32	강의 전체 녹음	”행동이란 사용자가 물리적이나 정신적으로 나타내는 모든 것을 의미하며…“	100%	500MB+
INT8	상세 정리 노트	”행동: 물리적/정신적 움직임과 반응, 피드백 포함”	~90%	150MB
INT4	키워드 메모	”행동: 움직임, 반응, 피드백”	~80%	50MB

→ 핵심: 인간의 뇌도 세부사항 일부 생략하면서 핵심 개념만 추출해 학습하듯, Quantization 도 정보 손실을 최소화하면서 효율성을 극대화합니다.

QK 파일명 포맷 해독

llama.cpp 에서 사용하는 양자화 파일명으로, 양자화 수준과 기법을 나타냅니다:

파일명	의미	설명
Q4_K_M	4-bit K-Medium	균형형 양자화 (정확도/압축률 최적밸런스)
Q4_K_S	4-bit K-Small	더 작은 파일, 약간 낮은 정확도
Q5_K_M	5-bit K-Medium	4-bit 보다 정확도 ↑, 파일 크기 ↑
Q5_K_S	5-bit K-Small	5-bit 중 컴팩트 버전
Q8_0	8-bit 정확한 양자화	거의 FP16 수준 정확도, 큰 파일

Medium / Small / Large 의미

llama.cpp 의 “K-quantization” 시리즈에서 접미사는 양자화 알고리즘의 정교함과 용량을 나타냅니다:

| 접미사 | 의미 | 특징 | 실생활 비유 | ||---::--------||—:—:-------------------||----:-:------|-||---------|| | S (Small) | 작은 버전 | 최소한의 메모리 사용, 약간의 정확도 타협 | “핵심 키워드만” 노트 | | M (Medium) | 중간 버전 | 정확도와 크기의 최적 균형 | “적절한 요약” 노트 ⭐ | | L (Large) | 큰 버전 | 더 높은 정확도, 더 많은 메모리 사용 | “세부사항 포함” 상세 노트 |

용도	추천 파일
최고 품질 필요	Q8_0 또는 Q5_K_M
균형 (추천)	Q4_K_M
저사양 장치	Q4_K_S 또는 Q3_K_M

Explorer

날짜별 보기

2026년 (114)

2025년 (8)

Quantization

해당 개념이 필요한 이유

AS-IS

TO-BE

정밀도 단계별 비교

어떻게 작동하는가?

주요 Quantization 기법

실생활 비유 - 수업 노트 필기

QK 파일명 포맷 해독

Medium / Small / Large 의미

추천 파일 크기 예시 (7B 모델 기준)

추천 선택 가이드

참고 문서

Graph View

Table of Contents

Backlinks