يتطلب اختيار نموذج اللغة الكبيرة المناسب لمهمة ما مقارنة صارمة عبر أبعاد مثل الاستدلال والبرمجة والقدرة متعددة اللغات والتكلفة. تستخدم LMSYS Chatbot Arena تقييمات التفضيل البشري المجمّعة لترتيب النماذج في المهام المفتوحة. توفر HELM مجموعات معايير قياسية للمقارنة الأكاديمية والصناعية، بينما تتتبع Hugging Face Open LLM Leaderboard أداء النماذج مفتوحة المصدر. وتضيف Artificial Analysis مقاييس البنية التحتية مثل الإنتاجية وزمن الاستجابة إلى صورة التقييم.
1
4.9
3
4.8
4
4.7
5
4.4