LLM-referansetester - Katalog med AI-anmeldelser

Å velge riktig LLM for en oppgave krever grundig sammenligning på tvers av dimensjoner som resonnering, koding, flerspråklighet og kostnad. LMSYS Chatbot Arena bruker folkefinansierte menneskelige preferansevurderinger for å rangere modeller på åpne oppgaver. HELM tilbyr standardiserte referansetestsuiter for akademisk og industriell sammenligning, mens Hugging Face Open LLM Leaderboard følger ytelsen til åpen kildekode-modeller. Artificial Analysis legger til infrastrukturmålinger som gjennomstrømning og forsinkelse i evalueringsbildet.