Diraitory

Benchmarks de LLM - Diretório com Avaliações de IA

Escolher o LLM certo para uma tarefa exige uma comparação rigorosa em dimensões como raciocínio, programação, capacidade multilíngue e custo. O LMSYS Chatbot Arena usa avaliações de preferência humana coletadas de forma colaborativa para classificar modelos em tarefas abertas. O HELM fornece conjuntos de benchmarks padronizados para comparação acadêmica e da indústria, enquanto o Hugging Face Open LLM Leaderboard acompanha o desempenho de modelos de código aberto. A Artificial Analysis acrescenta métricas de infraestrutura, como throughput e latência, ao panorama de avaliação.

HELM

HELM Gratuito Plano Gratuito Código Aberto 2 avaliações HELM by Stanford avalia modelos de linguagem em dezenas de cenários medindo precisão, robustez e equidade.

2 4.9 LMSYS Chatbot Arena Gratuito Plano Gratuito Código Aberto 2 avaliações LMSYS Chatbot Arena é uma plataforma de avaliação de LLM com curadoria colaborativa desenvolvida pela LMSYS Org que classifica modelos de linguagem por meio de batalhas anônimas e aleatórias cara a cara julgadas por usuários humanos. Os visitantes enviam prompts e votam nas saídas de modelos

Hugging Face Open LLM Leaderboard

Hugging Face Open LLM Leaderboard Gratuito Plano Gratuito API Código Aberto 2 avaliações O Open LLM Leaderboard da Hugging Face é uma plataforma abrangente de benchmark de rastreamento que avalia modelos de linguagem de código aberto em benchmarks acadêmicos padronizados. O placar executa automaticamente modelos através de suites de avaliação incluindo MMLU, ARC, HellaSwag, Truthf

Artificial Analysis

Artificial Analysis Gratuito Plano Gratuito 2 avaliações Artificial Analysis avalia independentemente modelos de IA em qualidade, velocidade, preço e throughput, comparando provedores de API para desenvolvedores.

Evalverse

Evalverse Gratuito Plano Gratuito Código Aberto 2 avaliações Evalverse é um framework unificado de avaliação de LLM de código aberto que integra múltiplos conjuntos de benchmarks em uma única interface.