为某项任务选择合适的 LLM 需要在推理、编码、多语言能力和成本等维度上进行严格比较。LMSYS Chatbot Arena 使用众包的人类偏好评分对模型在开放式任务上进行排名。HELM 为学术界和行业比较提供标准化的基准套件,而 Hugging Face Open LLM Leaderboard 则追踪开源模型的性能。Artificial Analysis 在评估体系中加入了吞吐量和延迟等基础设施指标。
1
4.9
3
4.8
4
4.7
5
4.4