APIEval-20

Visit

0.0 (0) Rate

Freemium May 08, 2026

AI & Machine Learning Open Source API Developer Tools Testing AI Benchmarking

Visit Tool

About APIEval-20

Um benchmark aberto para agentes de IA que testam APIs

www.producthunt.com

Visit APIEval-20

AI Summary

APIEval-20 é um benchmark de caixa-preta para agentes de teste de API. Cada agente recebe apenas um esquema JSON e uma carga útil de exemplo, e então gera uma suíte de testes. Executamos esses testes contra APIs de referência reais com bugs inseridos e pontuamos a detecção de bugs, a cobertura da API e a eficiência. Diferente de avaliações baseadas em LLM-as-judge, a pontuação é totalmente objetiva: um bug é detectado ou não. As tarefas abrangem autenticação, erros, paginação, esquemas e fluxos de várias etapas. Disponível no Hugging Face.

Detailed Description

Conheça o APIEval-20, o benchmark definitivo de caixa-preta para avaliar agentes de teste de API! 🚀 Diferente de métodos subjetivos, o APIEval-20 oferece uma avaliação 100% objetiva: o agente recebe apenas um esquema JSON e um payload de exemplo para gerar suítes de teste completas. 🧪

Nós executamos esses testes contra APIs de referência reais que contêm bugs plantados, garantindo uma medição precisa de detecção de falhas, cobertura de API e eficiência operacional. 🎯

Principais funcionalidades:
✅ Cobertura abrangente: Autenticação, erros, paginação, validação de esquemas e fluxos multi-etapas.
✅ Avaliação imparcial: Sem "LLM-as-judge", aqui o sucesso é medido pelo bug encontrado ou não.
✅ Praticidade: Disponível abertamente no Hugging Face para impulsionar seus testes.

Ideal para desenvolvedores e pesquisadores que buscam elevar o nível da automação e confiabilidade de agentes de IA. Teste a robustez do seu agente hoje mesmo com o APIEval-20

Tool Screenshot

Click to enlarge

Key Features

Avaliação de agentes de teste de API em ambiente black-box

Geração de suítes de teste a partir de esquema JSON e payload de exemplo

Execução de testes contra APIs de referência com bugs inseridos propositalmente

Mensuração objetiva da detecção de bugs sem dependência de modelos como juízes

Cálculo da cobertura de API e da eficiência dos agentes

Cobertura de cenários complexos como autenticação, tratamento de erros e paginação

Suporte a fluxos de trabalho de múltiplas etapas

Disponibilidade pública e aberta na plataforma Hugging Face

APIEval-20

About APIEval-20

AI Summary

Detailed Description

Tool Screenshot

Key Features

Tags

Comments 0

No comments yet

Join the conversation

Related Tools

Categories

Discover More AI Tools

Reviews

APIEval-20

About APIEval-20

AI Summary

Detailed Description

Tool Screenshot

Key Features

Tags

Comments 0

No comments yet

Join the conversation

Related Tools

AI Bot

Enago Read

Kerlig

MixMemo.ai

Categories

Discover More AI Tools

Reviews

Cookies & Privacidade