← 용어
전문가 혼합 (MoE)
모델이 여러 전문 서브 네트워크(익스퍼트)를 갖되 각 토큰을 일부에만 라우팅하는 아키텍처. 685B MoE는 포워드 패스당 22B 파라미터만 활성화 가능. 결과: 작은 덴스 모델 비용으로 거대 모델 지식 용량. DeepSeek V4, Mixtral 8x22B가 MoE.
모델이 여러 전문 서브 네트워크(익스퍼트)를 갖되 각 토큰을 일부에만 라우팅하는 아키텍처. 685B MoE는 포워드 패스당 22B 파라미터만 활성화 가능. 결과: 작은 덴스 모델 비용으로 거대 모델 지식 용량. DeepSeek V4, Mixtral 8x22B가 MoE.