タスクに適したLLMを選ぶには、推論、コーディング、多言語能力、コストといった次元にわたる厳密な比較が必要です。LMSYS Chatbot Arenaは、クラウドソーシングによる人間の好み評価を用いて、自由形式のタスクでモデルをランク付けします。HELMは学術界と産業界の比較のための標準化されたベンチマークスイートを提供し、Hugging Face Open LLM Leaderboardはオープンソースモデルの性能を追跡します。Artificial Analysisは、スループットやレイテンシといったインフラ指標を評価の観点に加えています。
1
4.9
3
4.8
4
4.7
5
4.4