Fine-tuning

**Fine-tuning(미세조정)**은 사전학습된 모델의 가중치를 출발점으로 내 데이터에 맞춰 추가 학습하는 기법
처음부터(scratch) 학습하지 않고 기존 지식을 재활용하는 전이학습(transfer learning)의 한 방식
적은 데이터·비용으로 특정 도메인·작업에 모델을 특화시키는 맞춤화 방법
전체 가중치 또는 일부(LoRA 등)만 갱신하는 유연한 학습 전략

해당 개념이 필요한 이유

대형 모델을 scratch부터 학습하면 데이터·GPU·시간·비용이 막대
대부분의 실무는 “범용 모델 → 내 도메인 특화”만 필요한 제한된 요구
공개 가중치(open weights)를 출발점으로 쓰면 적은 자원으로 충분

AS-IS (scratch 학습) vs TO-BE (fine-tuning)

flowchart LR
    subgraph A["AS-IS — 처음부터 학습"]
        A1["빈 모델<br/>(랜덤 가중치)"] --> A2["거대한 데이터 + 수많은 GPU<br/>수주~수개월, 수억원"] --> A3[완성 모델]
    end
    subgraph B["TO-BE — fine-tuning"]
        B1["공개 가중치<br/>(이미 똑똑함)"] --> B2["내 데이터 소량<br/>GPU 적게, 수시간~수일"] --> B3[도메인 특화 모델]
    end

fine-tuning 방법 3가지

방법	무엇을 갱신	자원	비고
Full fine-tuning	모든 가중치	큼 (대형 GPU)	가장 강력하지만 무겁고 비쌈
LoRA (PEFT)	작은 어댑터 가중치만	적음	실무에서 가장 흔함
QLoRA	양자화 + LoRA	매우 적음	단일 소비자급 GPU도 가능

PEFT(Parameter-Efficient Fine-Tuning) = 일부 파라미터만 학습해 효율을 높이는 계열, LoRA가 대표.

LoRA는 왜 가벼운가 — 직관

거대한 원본 가중치 행렬 W는 그대로 얼리고(freeze), 그 옆에 작고 얇은 보조 행렬 두 개(A, B) 만 새로 학습한다. 실제 변화량을 ΔW ≈ B·A로 근사하므로, 학습할 파라미터 수가 원본 대비 수백~수천 배 적다.

출력 = W·x  +  (B·A)·x
        │          │
     얼림(고정)   이것만 학습 (작음)

비유하면 두꺼운 교재(원본 가중치)는 그대로 두고, 얇은 포스트잇(어댑터)에 내 메모만 붙이는 것과 같다. 교재를 통째로 다시 쓰지 않아도 내 용도에 맞춰진다.

과정 (코드 흐름)

# 1) 베이스 모델 + 토크나이저 로드 (open weights)
model = AutoModelForCausalLM.from_pretrained("google/gemma-...")
 
# 2) LoRA 어댑터 부착 (원본은 freeze, 어댑터만 학습)
model = get_peft_model(model, LoraConfig(r=16, target_modules=["q_proj", "v_proj"]))
 
# 3) 내 데이터셋으로 추가 학습 (forward → loss → backprop)
trainer = Trainer(model, train_dataset=my_dataset, ...)
trainer.train()
 
# 4) 어댑터 저장 (수 MB), 필요시 원본과 병합해 배포용 모델 생성
model.save_pretrained("my-domain-adapter")

Gemma에 적용하면

open weights를 받아 LoRA/QLoRA로 도메인 특화 가능 (예: “우리 회사 CS 챗봇용 Gemma”).
도구: HuggingFace transformers + peft/trl, Unsloth, Axolotl 등.
학습 후 ONNX Runtime용으로 export하면 GPU 없이 배포할 수도 있다.
⚠️ 라이선스 확인 필수: Gemma는 완전 오픈소스가 아니라 “Gemma Terms of Use” 적용 — 파생물 생성은 허용되나 금지된 사용 정책이 있다.

Knowledge Distillation과의 차이

Fine-tuning: 같은 모델을 내 데이터로 더 학습해 특화 (지식의 “갱신·추가”).
Distillation: 큰 모델의 지식을 다른(작은) 모델로 이전 (지식의 “이사”).

참고 문서

HuggingFace PEFT 문서
LoRA: Low-Rank Adaptation (arXiv:2106.09685)
관련 개념: Knowledge Distillation, ONNX Runtime, Supertonic 3

Explorer

날짜별 보기

2026년 (148)

2025년 (8)