오픈 LLM으로 내부 문서 프라이빗 RAG 구축하기

OpenAI에 데이터 안 보내고, Command R+ 2 또는 InternLM 3로 회사 문서에 RAG 구축.

STEP 1
모델·임베더 선정
생성: Command R+ 2 35B(내부용 연구 라이선스 OK) 또는 InternLM 3 70B(프로덕션 Apache). 임베더: 다국어면 BGE-M3 또는 NV-Embed-v2.
STEP 2
문서 인덱싱
LlamaIndex 또는 LangChain으로 문서 청킹(500~1000 토큰, 100 토큰 오버랩), 청크 임베딩, 벡터 DB(Qdrant, Weaviate, pgvector) 저장.
STEP 3
검색 연결
쿼리 시: 쿼리 임베딩 → 상위 K(8~15) 유사도 검색 → 크로스 인코더 리랭킹 → 결과를 모델 프롬프트에 채움. Command R+ 2는 빌트인 템플릿, InternLM 3는 수동 연결.
STEP 4
인용 추가
Command R+ 2와 현대 인스트럭션 튜닝 모델 모두 검색된 청크를 가리키는 [1] [2] 인용 마커 출력 가능. UI에 'Source: docs/foo.md L42' 식으로 표시.
STEP 5
온프레미스 운영
vLLM 또는 TGI로 A100 80GB 1장(Command R+ 2 35B) 또는 H100(InternLM 3 70B) 배포. 채팅 표면에 Open WebUI 추가. 전체 스택을 GPU 머신 1대에서 운영, 외부 의존성 없음.

모델·임베더 선정