APIEval-20 - AI Radar

About APIEval-20

Um benchmark aberto para agentes de IA que testam APIs

AI Summary

APIEval-20 é um benchmark de caixa-preta para agentes de teste de API. Cada agente recebe apenas um esquema JSON e uma carga útil de exemplo, e então gera uma suíte de testes. Executamos esses testes contra APIs de referência reais com bugs inseridos e pontuamos a detecção de bugs, a cobertura da API e a eficiência. Diferente de avaliações baseadas em LLM-as-judge, a pontuação é totalmente objetiva: um bug é detectado ou não. As tarefas abrangem autenticação, erros, paginação, esquemas e fluxos de várias etapas. Disponível no Hugging Face.

Detailed Description

Conheça o APIEval-20, o benchmark definitivo de caixa-preta para avaliar agentes de teste de API! 🚀 Diferente de métodos subjetivos, o APIEval-20 oferece uma avaliação 100% objetiva: o agente recebe apenas um esquema JSON e um payload de exemplo para gerar suítes de teste completas. 🧪

Nós executamos esses testes contra APIs de referência reais que contêm bugs plantados, garantindo uma medição precisa de detecção de falhas, cobertura de API e eficiência operacional. 🎯

Principais funcionalidades:
✅ Cobertura abrangente: Autenticação, erros, paginação, validação de esquemas e fluxos multi-etapas.
✅ Avaliação imparcial: Sem "LLM-as-judge", aqui o sucesso é medido pelo bug encontrado ou não.
✅ Praticidade: Disponível abertamente no Hugging Face para impulsionar seus testes.

Ideal para desenvolvedores e pesquisadores que buscam elevar o nível da automação e confiabilidade de agentes de IA. Teste a robustez do seu agente hoje mesmo com o APIEval-20

Key Features

Avaliação de agentes de teste de API em ambiente black-box
Geração de suítes de teste a partir de esquema JSON e payload de exemplo
Execução de testes contra APIs de referência com bugs inseridos propositalmente
Mensuração objetiva da detecção de bugs sem dependência de modelos como juízes
Cálculo da cobertura de API e da eficiência dos agentes
Cobertura de cenários complexos como autenticação, tratamento de erros e paginação
Suporte a fluxos de trabalho de múltiplas etapas
Disponibilidade pública e aberta na plataforma Hugging Face
Comments 0

No comments yet

Be the first to share your thoughts and start the conversation!

Join the conversation

Sign in to leave a comment and share your thoughts.

0.0
0 reviews
Loading...
Loading rating distribution...
Loading...

Loading reviews...