Benchmarks de LLM - Diretório com Avaliações de IA

Escolher o LLM certo para uma tarefa exige uma comparação rigorosa em dimensões como raciocínio, programação, capacidade multilíngue e custo. O LMSYS Chatbot Arena usa avaliações de preferência humana coletadas de forma colaborativa para classificar modelos em tarefas abertas. O HELM fornece conjuntos de benchmarks padronizados para comparação acadêmica e da indústria, enquanto o Hugging Face Open LLM Leaderboard acompanha o desempenho de modelos de código aberto. A Artificial Analysis acrescenta métricas de infraestrutura, como throughput e latência, ao panorama de avaliação.