Diraitory

LLM-Benchmarks - Verzeichnis mit KI-Bewertungen

Die Auswahl des richtigen LLM für eine Aufgabe erfordert einen rigorosen Vergleich über Dimensionen wie Reasoning, Coding, mehrsprachige Fähigkeit und Kosten. LMSYS Chatbot Arena nutzt crowdsourced Human-Preference-Bewertungen, um Modelle bei offenen Aufgaben zu bewerten. HELM bietet standardisierte Benchmark-Suites für akademischen und Industrievergleich, während die Hugging Face Open LLM Leaderboard die Leistung von Open-Source-Modellen nachverfolgt. Artificial Analysis fügt Infrastruktur-Metriken wie Durchsatz und Latenz zum Evaluierungsbild hinzu.

HELM

HELM Kostenlos Kostenloser Tarif Open Source 2 Bewertungen HELM von Stanford evaluiert Sprachmodelle in Dutzenden von Szenarien und misst dabei Genauigkeit, Robustheit und Fairness.

2 4.9 LMSYS Chatbot Arena Kostenlos Kostenloser Tarif Open Source 2 Bewertungen LMSYS Chatbot Arena ist eine von der Gemeinschaft unterstützte LLM-Evaluierungsplattform, die von LMSYS Org entwickelt wurde und Sprachmodelle durch blinde, zufällig ausgewählte Eins-gegen-Eins-Kämpfe bewertet, die von menschlichen Benutzern bewertet werden. Besucher reichen Anfragen ein und sti

Hugging Face Open LLM Leaderboard

Hugging Face Open LLM Leaderboard Kostenlos Kostenloser Tarif API Open Source 2 Bewertungen Die Open LLM Leaderboard von Hugging Face ist eine umfassende Benchmark-Tracking-Plattform, die Open-Source-Sprachmodelle über standardisierte akademische Benchmarks bewertet. Die Rangliste führt automatisch Modelle durch Evaluierungssuites wie MMLU, ARC, HellaSwag, TruthfulQA, Winogrande und GSM8

Artificial Analysis

Artificial Analysis Kostenlos Kostenloser Tarif 2 Bewertungen Artificial Analysis bewertet KI-Modelle unabhängig in den Bereichen Qualität, Geschwindigkeit, Preis und Durchsatz und vergleicht API-Anbieter für Entwickler.

Evalverse

Evalverse Kostenlos Kostenloser Tarif Open Source 2 Bewertungen Evalverse ist ein Open-Source-Framework zur einheitlichen LLM-Evaluierung, das mehrere Benchmark-Suiten in einer Schnittstelle integriert.