오픈 LLM으로 코딩 어시스턴트 셀프 호스팅하기

DeepSeek Coder V3 또는 라마 4를 자체 GPU에서 돌려 프라이빗 코드 어시스턴트 세팅 단계별 가이드.

STEP 1
모델 선정
VRAM 24GB 이상이면 DeepSeek Coder V3 33B가 최고 품질. 노트북 GPU엔 라마 4 8B. 비전·다국어 필요하면 Qwen3.6 7B.
STEP 2
Ollama 설치
ollama.com → 설치 → ollama pull deepseek-coder-v3:33b. 33B Q4 가중치 ~20GB, 다운로드 10분 예상.
STEP 3
에디터 연결
VS Code: Continue 확장 설치, 프로바이더를 Ollama로. JetBrains: Continue 또는 Tabby. 둘 다 OpenAI API 스펙을 따르므로 http://localhost:11434/v1 가리키면 됨.
STEP 4
시스템 프롬프트 튜닝
디폴트 채팅 템플릿은 채팅엔 OK. 인라인 완성엔 모델별 FIM 템플릿 — DeepSeek Coder는 <|fim_begin|> / <|fim_hole|> / <|fim_end|>.
STEP 5
코드베이스 컨텍스트 추가
Continue와 Cursor는 프로젝트 단위 검색 지원. 레포 한 번 인덱싱하면 쿼리가 자동으로 관련 파일 가져옴. DeepSeek Coder V3 같은 64K 컨텍스트 모델과 결합하면 완전 로컬에서 거의 Cursor 품질.

모델 선정