LLMベンチマーク - AIレビュー付きディレクトリ

タスクに適したLLMを選ぶには、推論、コーディング、多言語能力、コストといった次元にわたる厳密な比較が必要です。LMSYS Chatbot Arenaは、クラウドソーシングによる人間の好み評価を用いて、自由形式のタスクでモデルをランク付けします。HELMは学術界と産業界の比較のための標準化されたベンチマークスイートを提供し、Hugging Face Open LLM Leaderboardはオープンソースモデルの性能を追跡します。Artificial Analysisは、スループットやレイテンシといったインフラ指標を評価の観点に加えています。

HELM 1 4.9 HELM 無料 無料プラン オープンソース 2件のレビュー StanfordのHELMは、数十のシナリオにわたって言語モデルの精度・堅牢性・公平性を評価します。 2 4.9 LMSYS Chatbot Arena 無料 無料プラン オープンソース 2件のレビュー LMSYS Chatbot Arena は、人間のユーザーによって判定された盲検のランダム化された 1 対 1 の対戦を通じて言語モデルをランク付けする LMSYS Org によって開発されたクラウドソース LLM 評価プラットフォームです。訪問者はプロン Hugging Face Open LLM Leaderboard 3 4.8 Hugging Face Open LLM Leaderboard 無料 無料プラン API オープンソース 2件のレビュー Hugging Face の Open LLM Leaderboard は、標準化された学術ベンチマーク全体でオープンソース言語モデルを評価する包括的なベンチマーク追跡プラットフォームです。このリーダーボードは、MMLU、ARC、HellaSwag、TruthfulQA、Winogrande、G Artificial Analysis 4 4.7 Artificial Analysis 無料 無料プラン 2件のレビュー Artificial Analysisは、AIモデルを品質・速度・価格・スループットの観点から独立して評価し、開発者向けにAPIプロバイダーを比較します。 Evalverse 5 4.4 Evalverse 無料 無料プラン オープンソース 2件のレビュー Evalverseは、複数のベンチマークスイートを1つのインターフェースに統合したオープンソースの統合LLM評価フレームワークです。