AI Summary
Forge gera kernels de GPU otimizados a partir de qualquer modelo PyTorch ou HuggingFace. 32 agentes Coder+Judge paralelos competem para encontrar a implementação CUDA/Triton mais rápida. Até 5× mais rápido que torch.compile(mode='max-autotune') com 97,6% de precisão. Insira o ID do modelo HuggingFace, obtenha kernels otimizados para cada camada. Impulsionado por NVIDIA Nemotron 3 Nano 30B otimizado a 250 mil tokens/seg. "Reembolso total se não superarmos torch.compile"
No comments yet
Be the first to share your thoughts and start the conversation!