LLM 벤치마크 - AI 리뷰 디렉터리

작업에 맞는 LLM을 선택하려면 추론, 코딩, 다국어 능력, 비용과 같은 차원에 걸친 엄격한 비교가 필요합니다. LMSYS Chatbot Arena는 크라우드소싱된 인간 선호도 평가를 사용해 개방형 작업에서 모델 순위를 매깁니다. HELM은 학계 및 산업 비교를 위한 표준화된 벤치마크 스위트를 제공하고, Hugging Face Open LLM Leaderboard는 오픈소스 모델 성능을 추적합니다. Artificial Analysis는 처리량과 지연 시간 같은 인프라 지표를 평가에 추가합니다.