AI Summary
A maioria dos benchmarks de IA testa modelos em ambientes controlados. O Modo Agente os testa em tarefas complexas para realizar mais trabalho. Execute agentes autônomos que navegam, pesquisam, programam, usam arquivos e completam fluxos de trabalho de várias etapas a partir de um único comando. Em seguida, observe cada fluxo de trabalho se desenrolar passo a passo. Cada execução contribui para o Quadro de Líderes da Arena de Agentes, classificando os modelos de fronteira pelo desempenho agente real.
No comments yet
Be the first to share your thoughts and start the conversation!