작업에 맞는 LLM을 선택하려면 추론, 코딩, 다국어 능력, 비용과 같은 차원에 걸친 엄격한 비교가 필요합니다. LMSYS Chatbot Arena는 크라우드소싱된 인간 선호도 평가를 사용해 개방형 작업에서 모델 순위를 매깁니다. HELM은 학계 및 산업 비교를 위한 표준화된 벤치마크 스위트를 제공하고, Hugging Face Open LLM Leaderboard는 오픈소스 모델 성능을 추적합니다. Artificial Analysis는 처리량과 지연 시간 같은 인프라 지표를 평가에 추가합니다.
1
4.9
3
4.8
4
4.7
5
4.4