Diraitory

Benchmark LLM - Directory con recensioni AI

Scegliere l'LLM giusto per un compito richiede un confronto rigoroso su dimensioni come ragionamento, codifica, capacità multilingue e costo. LMSYS Chatbot Arena utilizza valutazioni di preferenza umana raccolte in crowdsourcing per classificare i modelli su compiti aperti. HELM fornisce suite di benchmark standardizzate per il confronto accademico e industriale, mentre la Hugging Face Open LLM Leaderboard traccia le prestazioni dei modelli open source. Artificial Analysis aggiunge metriche infrastrutturali come throughput e latenza al quadro di valutazione.

HELM

HELM Gratuito Piano gratuito Open Source 2 recensioni HELM di Stanford valuta i modelli linguistici in dozzine di scenari misurando accuratezza, robustezza e correttezza.

2 4.9 LMSYS Chatbot Arena Gratuito Piano gratuito Open Source 2 recensioni LMSYS Chatbot Arena è una piattaforma di valutazione LLM crowdsourced sviluppata da LMSYS Org che classifica i modelli linguistici attraverso battaglie cieche e casualizzate uno contro uno giudicate da utenti umani. I visitatori inviano prompt e votano gli output del modello anonimi, con i risultat

Hugging Face Open LLM Leaderboard

Hugging Face Open LLM Leaderboard Gratuito Piano gratuito API Open Source 2 recensioni The Open LLM Leaderboard di Hugging Face è una piattaforma di benchmark completa che valuta i modelli linguistici open-source su benchmark accademici standardizzati. La classifica esegue automaticamente i modelli attraverso suite di valutazione inclusi MMLU, ARC, HellaSwag, TruthfulQA, Winogrande e

Artificial Analysis

Artificial Analysis Gratuito Piano gratuito 2 recensioni Artificial Analysis valuta indipendentemente i modelli AI su qualità, velocità, prezzo e throughput, confrontando i provider API per gli sviluppatori.

Evalverse

Evalverse Gratuito Piano gratuito Open Source 2 recensioni Evalverse è un framework unificato open-source di valutazione LLM che integra più suite di benchmark in un'unica interfaccia.