용어 사전

오픈 LLM 용어, 평이한 한국어로.

오픈 가중치

학습된 파라미터 값(가중치)이 공개 다운로드 가능한 모델. 오픈 가중치는 학습 데이터·코드 공개를 의미하지 않음 — 그냥 모델을 직접 실행·파인튜닝·배포할 수 있다는 뜻. 라마 4, DeepSeek V4, Qwen3.6 모두 오픈 가중치지만 완전 오픈소스는 아님.

전문가 혼합 (MoE)

모델이 여러 전문 서브 네트워크(익스퍼트)를 갖되 각 토큰을 일부에만 라우팅하는 아키텍처. 685B MoE는 포워드 패스당 22B 파라미터만 활성화 가능. 결과: 작은 덴스 모델 비용으로 거대 모델 지식 용량. DeepSeek V4, Mixtral 8x22B가 MoE.

양자화

가중치를 저정밀도 숫자(예: 16비트 대신 4비트)로 저장해 모델 압축. 70B fp16은 140GB 필요, 같은 모델 Q4는 ~35GB. 현대 양자화 방식(Q4_K_M, AWQ, GPTQ)은 대부분 벤치마크에서 2% 미만 품질 손실. 양자화 덕에 큰 LLM이 컨슈머 하드웨어에서 돌아감.

컨텍스트 윈도우

모델이 단일 추론에서 처리할 수 있는 최대 토큰 수(입력+출력). 128K 컨텍스트 모델은 한 번에 약 9만 6천 단어 처리. 긴 컨텍스트 = 책·코드베이스·긴 대화 전체 읽기 가능, 단 메모리 사용량은 컨텍스트 길이의 제곱으로 증가. 오픈 모델 최장 컨텍스트는 InternLM 3의 200K.

HumanEval

164개 수작업 파이썬 프로그래밍 문제 벤치마크, 각각 단위 테스트 포함. 점수 = 모델 생성 코드가 테스트 통과하는 문제 비율. 코드 생성 품질 사실상 표준 벤치마크. DeepSeek V4(92.1), DeepSeek Coder V3(89.4)가 현재 오픈 모델 1·2위.

MMLU

Massive Multitask Language Understanding — 미국사부터 대학 수학까지 57개 과목. LLM 일반 지식 표준 벤치마크. 상위 오픈 모델 84~89, Claude Opus 4.7은 ~92. MMLU 높음은 좋은 챗 모델의 필요조건이지 충분조건은 아님.

LoRA / QLoRA

Low-Rank Adaptation: 모든 수십억 파라미터 업데이트 대신, 동결된 베이스 모델 위에 작은 어댑터 행렬을 훈련하는 파인튜닝 기법. QLoRA = 양자화된 베이스에 LoRA. 둘 다 파인튜닝 메모리를 10~50배 줄이고 초 단위로 스왑 가능한 작은 어댑터 파일 생성. 2026년 디폴트 파인튜닝 접근.

함수 호출 / 툴 사용

모델이 사용자 쿼리에 외부 도구(계산기, 웹 검색, DB 쿼리, 코드 실행)가 필요한지 인식하고 그 도구를 호출하는 구조화된 JSON 요청을 내는 능력. 에이전트 구축에 필수. Mistral Large 3, Command R+ 2는 네이티브 툴 사용, 라마 4 70B와 DeepSeek V4는 파인튜닝으로 가능.

인스트럭트 vs 베이스 모델

베이스 모델: 다음 토큰 예측만으로 훈련. 자동완성처럼 행동. 인스트럭트(또는 챗) 모델: 같은 베이스를 인스트럭션 따르기 예시와 인간 피드백으로 파인튜닝해 도움 되는 어시스턴트처럼 행동. 채팅 용도엔 항상 -Instruct 또는 -Chat 변형. 자체 어시스턴트 파인튜닝은 베이스.

RAG (검색 증강 생성)

LLM이 답변 전, DB(벡터 또는 키워드 검색)에서 검색된 관련 문서를 프롬프트에 붙이는 패턴. 파인튜닝 없이 신선한 데이터·내부 문서·그라운딩 추가 가능. Command R+ 2는 RAG 특화 튜닝, InternLM 3 같은 긴 컨텍스트 모델은 검색된 문서 다수를 한 프롬프트에 채우는 데 유용.

GGUF 포맷

llama.cpp, Ollama, LM Studio, 대부분 로컬 추론 도구가 쓰는 양자화 LLM 표준 파일 포맷. .gguf 파일은 가중치·토크나이저·메타데이터를 단일 크로스플랫폼 바이너리에 담음. 구 GGML 포맷의 후속. 2026년 로컬 LLM 돌린다면 거의 GGUF 사용 중.

챗봇 아레나

사람이 두 모델의 응답을 블라인드로 나란히 비교해 어느 쪽이 나은지 투표하는 크라우드소싱 LLM 평가. 모델당 Elo 레이팅 생성. 벤치마크가 놓치는 선호를 잡기에 가장 많이 인용되는 '실제 품질' 순위. 2026년 4월 기준 Claude Opus 4.7 1위, 오픈 가중치 1위는 DeepSeek V4 1342.