2026-04-20 · fine-tuning · tutorial

2026년 오픈소스 LLM 파인튜닝: LoRA vs QLoRA vs 풀 파인튜닝

오픈 LLM에 LoRA, QLoRA, 풀 파인튜닝 중 뭐? 솔직한 트레이드오프, GPU 요구사항, 결정 트리.

2026년 LLM 파인튜닝은 2024년보다 훨씬 쉽다. 세 가지 실용 접근, 각각 "이걸 써라" 규칙 명확.

QLoRA (80% 케이스) 베이스 모델을 4비트 양자화 후 위에 저랭크 어댑터 훈련. 메모리: 7B 파인튜닝 ~24GB, 70B ~80GB.

용도: 도메인 적응, 스타일 전이, 포맷 학습, "우리 브랜드처럼 말하게", 소규모 데이터셋(10만 미만).

도구: Unsloth(가장 빠름, 디폴트), Axolotl, LLaMA-Factory, HF PEFT.

품질: 풀 파인튜닝의 ~95% 품질, ~10% 비용. 5% 갭은 실전에서 거의 무관.

LoRA (양자화 안 한 가중치 여유 있을 때) QLoRA와 같지만 베이스 fp16 유지. 메모리: 7B ~80GB, 70B는 훨씬 더. QLoRA보다 약간 좋은 품질, 훨씬 비쌈.

용도: 프로덕션에서 여러 어댑터를 같은 베이스 모델에 핫 스왑(LoRA 어댑터 ~50MB라 베이스 하나에 수백 개 파인튜닝 서빙 가능).

풀 파인튜닝 (정말 필요할 때만) 베이스 가중치 전체 훈련. 메모리: 70B면 H100 최소 8장. 클라우드 비용: 한 번 5~20K달러.

용도: 매우 큰 데이터셋(1M+), 모델 근본 개선(스타일·포맷 적응 아닌), 추론 모델 훈련(o1 스타일 RL).

솔직히: 95% 팀은 풀 파인튜닝 하면 안 됨. 더 강한 베이스 + QLoRA로 비용 절약.

실용 결정 트리 1. 예시 1K 미만? 파인튜닝 X — few-shot 프롬프팅 또는 RAG. 2. 1K~10K? QLoRA 충분. 3. 10K~100K + 고유 도메인? QLoRA, Tulu 스타일 멀티턴 인스트럭션 튜닝 고려. 4. 100K+ + 베이스 대비 분포 차이 큼? LoRA, 예산 있으면 풀 파인튜닝. 5. RL 필요(RLHF, RLAIF, GRPO)? 풀 파인튜닝 영역. TRL 또는 VeRL.

어떤 베이스 모델 - 문서화 베스트: 라마 4 8B 또는 70B. 튜토리얼·레퍼런스 코드 가장 많음. - 파인튜닝 가장 쉬움: 미스트랄 7B / 22B 베이스. 깨끗한 아키텍처, 모든 라이브러리에서 잘 지원. - 재현성 베스트: OLMo 2. 전체 학습 파이프라인 오픈. - RAG 파인튜닝 베스트: Command R+ 2 베이스(연구용) 또는 InternLM 3(Apache).

평가 잊지 마 파인튜닝은 학습 손실은 좋지만 실제 사용자엔 나쁠 수 있음. 평가셋 먼저 — 정답이 있는 200~500 프롬프트 — 매 학습 후 실행. 평가셋 없으면 베이스보다 나아졌는지 알 길 없음.

관련 모델

Meta · 405B · Llama

Mistral Large 3

Mistral AI · 123B · Mistral

Allen AI · 32B · Apache-2.0

Allen AI · 70B · Llama