2026-04-26 · leaderboard · comparison

2026년 베스트 오픈소스 LLM: 용도별 솔직한 추천

2026년 어떤 오픈소스 LLM을 돌릴지 솔직한 추천. 프론티어 추론, 코딩, RAG, 엣지, 다국어 등 용도별로.

2024년에 같은 질문을 받았다면 "라마 3 쓰고 그만 고민해라"가 답이었다. 2026년은 더 재미있다 — DeepSeek가 리더보드를 장악했고, Phi-4는 비현실적으로 효율적이고, Gemma 3는 폰에 들어갈 정도로 작다. 우리가 실제로 고르는 방식.

프론티어급 추론 + 오픈 가중치 → DeepSeek V4 오픈 가중치로 GPT-5와 Claude Opus 수준 추론을 실제로 따라잡은 첫 모델. 685B MoE는 H100 클러스터가 필요하지만, 67B 디스틸드는 A100 80GB 2장에 올라가고 라마 4 70B를 MMLU에서 이긴다. 라이선스 관대 — 제품에 그대로 쓸 수 있다.

이게 틀린 경우: GPU가 없을 때. 가장 작은 게 67B 디스틸드라 셀프 호스팅 안 하면 매니지드 추론 비용 폭탄. 호스티드 옵션 비용은 LLM Pricing Calculator에서.

베스트 8B 로컬 모델 → 라마 4 8B (여전히) Phi-4 14B가 벤치마크는 더 좋고 Qwen3.6 7B가 언어는 더 많지만, 라마 4 8B는 파인튜닝 생태계, 양자화, 통합 라이브러리, 문제 생겼을 때 검색되는 답이 가장 많다. "그냥 로컬에서 LLM 돌리고 도구랑 안 싸우고 싶다"면 여전히 정답.

사이즈 대비 펀치 → Phi-4 14B MS가 합성 고품질 데이터로 집중 훈련했고 결과로 드러남: GSM8K 95.2, MMLU 84.8, 14B 베이스. 라마 4 70B보다 수학 더 잘함, 파라미터는 1/4. 약점: 16K 컨텍스트, 영어 위주. 수학 튜터나 코드 도우미처럼 프롬프트가 짧은 용도엔 가장 효율적.

베스트 다국어 → Qwen3.6 35B 기본 119개 언어, 영·중 바이링구얼은 라마/미스트랄보다 한 수 위. 북미·유럽 외 지역으로 출시한다면 여기서 시작. 35B+는 비전도 포함.

베스트 코딩 → DeepSeek Coder V3 HumanEval 89.4. FIM 지원. 코드 토큰 2T 학습. 가까운 2등 없음. 코드 생성만 한다면 33B 변형을 A100 한 장에 올리는 게 정답.

추천 안 한 모델 (이유) - Falcon 3 180B: 매출 기반 라이선스 단계, 파인튜닝 적음, 신모델 대비 추론 부족. 아랍어 특수 용도 아니면 다른 거. - Command R+ 2: RAG는 환상적이지만 가중치는 연구 라이선스. 프로덕션이면 코히어 API 비용 내야 함. - Yi 1.5 34B: 탄탄하지만 2년 묵음. 신규 Apache-2.0(Mixtral 8x22B, OLMo 2)이 따라잡음.

실제 결정 방식 우선순위: 라이선스(연구/상업) → VRAM(8GB / 24GB / 80GB 티어) → 단일 작업 vs 범용(코드 전용은 훨씬 작음) → 지원 언어. 대부분 팀이 모델 선정에 시간을 쓰고 평가에는 안 쓴다 — 합리적 디폴트를 정하고 자기 프롬프트로 평가하는 게 핵심.

관련 모델

DeepSeek AI · 685B · DeepSeek

Meta · 405B · Llama

Alibaba · 35B · Qwen

Google DeepMind · 27B · Gemma

Microsoft · 14B · MIT