← 용어
챗봇 아레나
사람이 두 모델의 응답을 블라인드로 나란히 비교해 어느 쪽이 나은지 투표하는 크라우드소싱 LLM 평가. 모델당 Elo 레이팅 생성. 벤치마크가 놓치는 선호를 잡기에 가장 많이 인용되는 '실제 품질' 순위. 2026년 4월 기준 Claude Opus 4.7 1위, 오픈 가중치 1위는 DeepSeek V4 1342.
사람이 두 모델의 응답을 블라인드로 나란히 비교해 어느 쪽이 나은지 투표하는 크라우드소싱 LLM 평가. 모델당 Elo 레이팅 생성. 벤치마크가 놓치는 선호를 잡기에 가장 많이 인용되는 '실제 품질' 순위. 2026년 4월 기준 Claude Opus 4.7 1위, 오픈 가중치 1위는 DeepSeek V4 1342.