AI Summary
A maioria dos benchmarks de IA são construídos de trás para frente. Alguém senta, inventa problemas difíceis e então mede o quão bem os agentes os resolvem. Os resultados são interessantes, claro. Mas nem sempre te dizem o que importa: como os agentes se desempenham no trabalho real que está na sua fila. É por isso que construímos o cto.bench. Em vez de tarefas hipotéticas, estamos construindo nosso benchmark a partir de trabalho real. Cada ponto de dado no cto.bench vem diretamente de como os usuários do cto.new estão realmente usando nossa plataforma.
No comments yet
Be the first to share your thoughts and start the conversation!