← 용어
HumanEval
164개 수작업 파이썬 프로그래밍 문제 벤치마크, 각각 단위 테스트 포함. 점수 = 모델 생성 코드가 테스트 통과하는 문제 비율. 코드 생성 품질 사실상 표준 벤치마크. DeepSeek V4(92.1), DeepSeek Coder V3(89.4)가 현재 오픈 모델 1·2위.
164개 수작업 파이썬 프로그래밍 문제 벤치마크, 각각 단위 테스트 포함. 점수 = 모델 생성 코드가 테스트 통과하는 문제 비율. 코드 생성 품질 사실상 표준 벤치마크. DeepSeek V4(92.1), DeepSeek Coder V3(89.4)가 현재 오픈 모델 1·2위.