AI Summary
Forge transforma modelos PyTorch em kernels CUDA e Triton otimizados automaticamente. 32 agentes de IA rodam em paralelo, cada um testando diferentes estratégias de otimização como tensor cores, coalescência de memória e fusão de kernels. Um juiz valida cada kernel quanto à correção antes do benchmarking. Obtivemos inferência 5x mais rápida que torch.compile no Llama 3.1 8B e 4x no Qwen 2.5 7B. Funciona em qualquer modelo PyTorch. Teste gratuito em um kernel. Reembolso total se não superarmos o torch.compile.
No comments yet
Be the first to share your thoughts and start the conversation!