← 용어

HumanEval

164개 수작업 파이썬 프로그래밍 문제 벤치마크, 각각 단위 테스트 포함. 점수 = 모델 생성 코드가 테스트 통과하는 문제 비율. 코드 생성 품질 사실상 표준 벤치마크. DeepSeek V4(92.1), DeepSeek Coder V3(89.4)가 현재 오픈 모델 1·2위.

관련 모델