การเลือก LLM ที่เหมาะสมกับงานต้องอาศัยการเปรียบเทียบอย่างเข้มงวดในหลายมิติ เช่น การให้เหตุผล การเขียนโค้ด ความสามารถหลายภาษา และต้นทุน LMSYS Chatbot Arena ใช้การจัดอันดับความชอบของมนุษย์จากการระดมความคิดเห็นเพื่อจัดอันดับโมเดลในงานแบบปลายเปิด HELM ให้ชุดเกณฑ์มาตรฐานที่ได้มาตรฐานสำหรับการเปรียบเทียบทางวิชาการและอุตสาหกรรม ขณะที่ Hugging Face Open LLM Leaderboard ติดตามประสิทธิภาพของโมเดลโอเพนซอร์ส Artificial Analysis เพิ่มเมตริกโครงสร้างพื้นฐาน เช่น ปริมาณงานและความหน่วง เข้าไปในภาพการประเมิน
1
4.9
3
4.8
4
4.7
5
4.4