Diraitory

Benchmarks LLM - Répertoire avec avis IA

Choisir le bon LLM pour une tache necessite une comparaison rigoureuse selon des dimensions comme le raisonnement, le codage, la capacite multilingue et le cout. LMSYS Chatbot Arena utilise des evaluations de preferences humaines participatives pour classer les modeles sur des taches ouvertes. HELM fournit des suites de benchmarks standardisees pour la comparaison academique et industrielle, tandis que le Hugging Face Open LLM Leaderboard suit les performances des modeles open source. Artificial Analysis ajoute des metriques d'infrastructure comme le debit et la latence au tableau d'evaluation.

HELM

HELM Gratuit Plan gratuit Open Source 2 avis HELM by Stanford évalue les modèles de langage dans des dizaines de scénarios mesurant la précision, la robustesse et l'équité.

2 4.9 LMSYS Chatbot Arena Gratuit Plan gratuit Open Source 2 avis LMSYS Chatbot Arena est une plateforme d'évaluation de LLM participative développée par LMSYS Org qui classe les modèles de langage par des combats en tête-à-tête aveugles et aléatoires jugés par des utilisateurs humains. Les visiteurs soumettent des invites et votent sur les résultats de

Hugging Face Open LLM Leaderboard

Hugging Face Open LLM Leaderboard Gratuit Plan gratuit API Open Source 2 avis The Open LLM Leaderboard de Hugging Face est une plateforme de suivi des benchmarks complète qui évalue les modèles de langage open-source selon les benchmarks académiques standardisés. Le classement exécute automatiquement les modèles via des suites d'évaluation incluant MMLU, ARC, HellaSwa

Artificial Analysis

Artificial Analysis Gratuit Plan gratuit 2 avis Artificial Analysis évalue indépendamment les modèles d'IA selon la qualité, la vitesse, le prix et le débit, en comparant les fournisseurs d'API pour les développeurs.

Evalverse

Evalverse Gratuit Plan gratuit Open Source 2 avis Evalverse est un framework d'évaluation LLM unifié open-source intégrant plusieurs suites de benchmarks dans une seule interface.