AI Summary
APIEval-20 é um benchmark de caixa-preta para agentes de teste de API. Cada agente recebe apenas um esquema JSON e uma carga útil de exemplo, e então gera uma suíte de testes. Executamos esses testes contra APIs de referência reais com bugs inseridos e pontuamos a detecção de bugs, a cobertura da API e a eficiência. Diferente de avaliações baseadas em LLM-as-judge, a pontuação é totalmente objetiva: um bug é detectado ou não. As tarefas abrangem autenticação, erros, paginação, esquemas e fluxos de várias etapas. Disponível no Hugging Face.
No comments yet
Be the first to share your thoughts and start the conversation!