2026년 4월 업데이트 · 18개 모델

오픈소스 LLM,
솔직하게 비교.

오픈 LLM 고를 때 있었으면 했던 디렉토리. 18개 모델 — DeepSeek V4, 라마 4, Qwen3.6, Phi-4, Gemma 3 — 실제 벤치마크와 라이선스, 트레이드오프까지. 벤더 미사여구 없음.

결과 18개 / 전체 18개
DeepSeek V4
DeepSeek AI · 2026-04
685B
256K ctx

2026년 4월 공개된 MoE 플래그십. 추론·코딩에서 오픈 리더보드 1위, 236B와 67B 디스틸드 모델도 같이 나와 셀프 호스팅하기 좋다.

DeepSeek상업 OKVRAM 80GB+
MMLU 89.4
HumanEval 92.1
GSM8K 95.2
Llama 4
Meta · 2025-09
405B
128K ctx

메타의 대표 LLM. 8B·70B·405B 세 사이즈, 8B는 16GB GPU 한 장에 올라가고 허깅페이스에서 다운로드 1위.

Llama상업 단서👁 비전VRAM 16GB+
MMLU 87.1
HumanEval 84.5
GSM8K 93
Mistral Large 3
Mistral AI · 2026-02
123B
128K ctx

프랑스 미스트랄 AI 플래그십. 일반 추론 강점, 환각 적음, EU 규제 친화적이라 컴플라이언스 민감한 곳에서 인기.

Mistral상업 단서VRAM 48GB+
MMLU 84.8
HumanEval 80.3
GSM8K 92.1
Phi-4
Microsoft · 2025-12
14B
16K ctx

MS의 14B 추론 모델. 14B인데 70B급 수학·추론 점수 — 리더보드 파라미터 효율 1위.

MIT상업 OKVRAM 8GB+
MMLU 84.8
HumanEval 82.6
GSM8K 95.2
Qwen3.6 35B
Alibaba · 2026-04
35B
128K ctx

알리바바 2026년 4월 공개. 35B인데 코딩·비전 벤치마크는 70B급, 라이선스 관대하고 중국어가 특히 강하다.

Qwen상업 OK👁 비전VRAM 24GB+
MMLU 84.2
HumanEval 87.2
GSM8K 91.4
InternLM 3
Shanghai AI Lab · 2026-01
70B
200K ctx

상하이 AI 랩 3세대 InternLM. Apache-2.0, 200K 컨텍스트, 추론 강점. 조용히 잘 만든 중국발 오픈 모델.

Apache-2.0상업 OKVRAM 14GB+
MMLU 80.4
HumanEval 73
GSM8K 89.6
Command R+ 2
Cohere · 2026-01
104B
128K ctx

코히어 RAG 특화 플래그십. 검색·다국어·툴 사용 강점. 가중치는 오픈이지만 라이선스는 연구용 — 상업은 코히어 API.

Custom (research)연구용VRAM 48GB+
MMLU 78.8
HumanEval 71.7
GSM8K 87.3
Gemma 3
Google DeepMind · 2025-11
27B
128K ctx

구글 오픈 가중치 모델. 2B는 강력한 소형 모델, 폰·엣지·라즈베리파이 5에서도 돈다.

Gemma상업 OK👁 비전VRAM 6GB+
MMLU 78.5
HumanEval 71.2
GSM8K 86.5
Mixtral 8x22B
Mistral AI · 2024-04
141B
64K ctx

2024년 클래식 MoE. 22B 익스퍼트 8개, 토큰당 39B 액티브. Apache-2.0이라 프로덕션 팀의 오픈 MoE 단골.

Apache-2.0상업 OKVRAM 80GB+
MMLU 77.8
HumanEval 75.3
GSM8K 88.4
Falcon 3 180B
TII (UAE) · 2025-08
180B
32K ctx

UAE 기술혁신연구소(TII)의 오픈소스 플래그십. 가중치 완전 오픈, 일정 매출 이하면 상업 사용 가능.

Falcon상업 OKVRAM 24GB+
MMLU 77.4
HumanEval 67
GSM8K 81
Yi 1.5 34B
01.AI · 2024-05
34B
32K ctx

01.AI 오픈 Yi 시리즈. 100% Apache-2.0, 사용 제약 없음. 2024년부터 셀프 호스팅 단골인 영·중 바이링구얼 모델.

Apache-2.0상업 OKVRAM 24GB+
MMLU 76.8
HumanEval 75.2
GSM8K 84.2
Qwen3.6 7B
Alibaba · 2026-04
7B
128K ctx

Qwen3.6 7B 비전 지원 모델. 사이즈 대비 강력, 7B 모델 중 최광역 언어 커버리지.

Qwen상업 OK👁 비전VRAM 16GB+
MMLU 76.4
HumanEval 75
GSM8K 84.6
Tulu 3
Allen AI · 2025-12
70B
8K ctx

AI2의 라마 인스트럭션 튜닝 모델. 오픈 레시피 — 후훈련 단계가 전부 문서화되어 재현 가능.

Llama상업 단서VRAM 16GB+
MMLU 75
HumanEval 65.6
GSM8K 87.1
Llama 4 8B
Meta · 2025-09
8B
128K ctx

라마 4 8B 모델 — 다운로드 1위 로컬 LLM. fp16에서는 16GB GPU, Q4에서는 4GB면 충분.

Llama상업 단서VRAM 16GB+
MMLU 73
HumanEval 62.2
GSM8K 85.3
OpenChat 4
OpenChat (community) · 2025-10
8B
32K ctx

라마 베이스 기반 커뮤니티 파인튜닝 채팅 모델. Apache-2.0 가중치, 로컬 10B 미만 평가에서 자주 1위.

Apache-2.0상업 OKVRAM 8GB+
MMLU 72.4
HumanEval 70.7
GSM8K 85.4
OLMo 2
Allen AI · 2025-11
32B
8K ctx

앨런 AI의 진짜 오픈 모델 — 가중치, 학습 코드, 학습 데이터, 체크포인트 전부 공개. 이 목록에서 가장 재현 가능.

Apache-2.0상업 OKVRAM 16GB+
MMLU 71.2
HumanEval 60
GSM8K 78.5
DeepSeek Coder V3
DeepSeek AI · 2026-02
33B
64K ctx

DeepSeek 코딩 특화 모델. 오픈 코드 모델 HumanEval 1위, FIM과 레포 단위 컨텍스트 지원.

DeepSeek상업 OKVRAM 24GB+
MMLU 70.5
HumanEval 89.4
GSM8K 81
StarCoder 3
BigCode · 2025-07
15B
16K ctx

BigCode 협업 오픈 코드 LLM. 허용 라이선스 코드만 학습 — 코드 컴플라이언스 민감한 곳에 중요.

Open RAIL상업 단서VRAM 16GB+
MMLU 51.5
HumanEval 73.2
GSM8K 64

블로그

활용 가이드

정면 비교

오픈 LLM으로 뭔가 만들었나요?

뭐가 잘 됐는지 알려주세요. 디렉토리 업데이트하겠습니다.

choppy.young@gmail.com