Diraitory

LLM 벤치마크 - AI 리뷰 디렉터리

작업에 맞는 LLM을 선택하려면 추론, 코딩, 다국어 능력, 비용과 같은 차원에 걸친 엄격한 비교가 필요합니다. LMSYS Chatbot Arena는 크라우드소싱된 인간 선호도 평가를 사용해 개방형 작업에서 모델 순위를 매깁니다. HELM은 학계 및 산업 비교를 위한 표준화된 벤치마크 스위트를 제공하고, Hugging Face Open LLM Leaderboard는 오픈소스 모델 성능을 추적합니다. Artificial Analysis는 처리량과 지연 시간 같은 인프라 지표를 평가에 추가합니다.

HELM

HELM 무료 무료 플랜 오픈 소스 2개 리뷰 Stanford의 HELM은 정확도, 견고성 및 공정성을 측정하는 수십 가지 시나리오에서 언어 모델을 평가합니다.

2 4.9 LMSYS Chatbot Arena 무료 무료 플랜 오픈 소스 2개 리뷰 LMSYS Chatbot Arena는 LMSYS Org가 개발한 크라우드소싱 기반 LLM 평가 플랫폼으로, 익명의 무작위 1대1 대결을 통해 언어 모델의 순위를 매기며 그 판정은 실제 사용자가 담당합니다. 방문자는 프롬프트를 제출하고 익명 모델 출력에 투

Hugging Face Open LLM Leaderboard

Hugging Face Open LLM Leaderboard 무료 무료 플랜 API 오픈 소스 2개 리뷰 Hugging Face의 Open LLM Leaderboard는 표준화된 학술 벤치마크 전반에 걸쳐 오픈 소스 언어 모델을 평가하는 종합 벤치마크 추적 플랫폼입니다. 이 리더보드는 MMLU, ARC, HellaSwag, TruthfulQA, Winogrande, GSM8K 등의 평가 세트를 통해 모델을 자동

Artificial Analysis

Artificial Analysis 무료 무료 플랜 2개 리뷰 Artificial Analysis는 품질, 속도, 가격 및 처리량 전반에 걸쳐 AI 모델을 독립적으로 평가하고 개발자를 위해 API 제공자를 비교합니다.

Evalverse

Evalverse 무료 무료 플랜 오픈 소스 2개 리뷰 Evalverse는 하나의 인터페이스에 여러 벤치마크 스위트를 통합하는 오픈소스 통합 LLM 평가 프레임워크입니다.