2026-04-20 · fine-tuning · tutorial
2026년 오픈소스 LLM 파인튜닝: LoRA vs QLoRA vs 풀 파인튜닝
오픈 LLM에 LoRA, QLoRA, 풀 파인튜닝 중 뭐? 솔직한 트레이드오프, GPU 요구사항, 결정 트리.
2026년 LLM 파인튜닝은 2024년보다 훨씬 쉽다. 세 가지 실용 접근, 각각 "이걸 써라" 규칙 명확.
QLoRA (80% 케이스) 베이스 모델을 4비트 양자화 후 위에 저랭크 어댑터 훈련. 메모리: 7B 파인튜닝 ~24GB, 70B ~80GB.
용도: 도메인 적응, 스타일 전이, 포맷 학습, "우리 브랜드처럼 말하게", 소규모 데이터셋(10만 미만).
도구: Unsloth(가장 빠름, 디폴트), Axolotl, LLaMA-Factory, HF PEFT.
품질: 풀 파인튜닝의 ~95% 품질, ~10% 비용. 5% 갭은 실전에서 거의 무관.
LoRA (양자화 안 한 가중치 여유 있을 때) QLoRA와 같지만 베이스 fp16 유지. 메모리: 7B ~80GB, 70B는 훨씬 더. QLoRA보다 약간 좋은 품질, 훨씬 비쌈.
용도: 프로덕션에서 여러 어댑터를 같은 베이스 모델에 핫 스왑(LoRA 어댑터 ~50MB라 베이스 하나에 수백 개 파인튜닝 서빙 가능).
풀 파인튜닝 (정말 필요할 때만) 베이스 가중치 전체 훈련. 메모리: 70B면 H100 최소 8장. 클라우드 비용: 한 번 5~20K달러.
용도: 매우 큰 데이터셋(1M+), 모델 근본 개선(스타일·포맷 적응 아닌), 추론 모델 훈련(o1 스타일 RL).
솔직히: 95% 팀은 풀 파인튜닝 하면 안 됨. 더 강한 베이스 + QLoRA로 비용 절약.