
SANA-WM: 2.6B parâmetros geram 720p em 34 segundos na RTX 5090
Especialista em LLMs, AI Agents e Infraestrutura de IA

Especialista em LLMs, AI Agents e Infraestrutura de IA
A NVIDIA lançou o SANA-WM, modelo de mundo com 2.6 bilhões de parâmetros, capaz de gerar vídeos 720p em apenas 1 minuto usando uma GPU RTX 5090. Com eficiência 36x maior que modelos concorrentes, é um marco na democratização da criação de vídeos de alta qualidade.
A NVIDIA revelou o SANA-WM, um modelo de mundo aberto de 2.6 bilhões de parâmetros, durante um evento em maio de 2026. O SANA-WM foi projetado para gerar vídeos de alta qualidade em 720p, com até 1 minuto de duração, utilizando apenas uma única GPU, como a RTX 5090. Este avanço reduz significativamente os requisitos de hardware e o tempo de processamento comparado a outros modelos, como o LingBot-World e o HY-WorldPlay.
O modelo utiliza a tecnologia Diffusion Transformer (DiT), que combina técnicas de difusão com aprendizado profundo, garantindo alta fidelidade visual e controle preciso de movimentos em 6 graus de liberdade (6-DoF). Segundo um estudo publicado no arXiv, o SANA-WM foi treinado em 213 mil clipes públicos em apenas 15 dias, usando 64 GPUs H100. Este treinamento eficiente é um marco na evolução dos modelos de geração de vídeos.
O SANA-WM se destaca pela sua eficiência. Ele possui uma taxa de transferência 36 vezes superior a modelos anteriores. Um vídeo de 60 segundos em 720p pode ser gerado em 34 segundos com uma única GPU RTX 5090, utilizando a quantização NVFP4. Esta velocidade contrasta com soluções existentes que frequentemente necessitam de grandes clusters de hardware para resultados semelhantes.
A arquitetura híbrida de difusão e transformadores oferece equilíbrio entre qualidade visual e eficiência computacional. Enquanto modelos similares demandam custos exorbitantes em infraestrutura, o SANA-WM democratiza a criação de conteúdos, permitindo que desenvolvedores independentes e pequenas empresas acessem essa tecnologia.
A acessibilidade do SANA-WM promete transformar o mercado de conteúdo audiovisual:
Por outro lado, o aumento na produção de vídeos gerados por IA levanta questões sobre qualidade, originalidade e possíveis desafios regulatórios.
O SANA-WM estabelece um novo padrão na geração de vídeos com IA. Contudo, para maximizar seu impacto, alguns pontos devem ser observados:
O lançamento do SANA-WM pela NVIDIA é um marco significativo para a indústria de conteúdos gerados por IA. Sua eficiência, acessibilidade e potencial de democratização podem transformar a criação de vídeos de alta qualidade. Contudo, o impacto real dependerá da adoção pelo mercado e dos avanços futuros.
O SANA-WM é um modelo de mundo aberto com 2.6 bilhões de parâmetros, projetado para gerar vídeos em 720p de até 1 minuto usando apenas uma GPU, como a RTX 5090.
O SANA-WM é 36 vezes mais eficiente que modelos anteriores, permitindo a geração de vídeos de 60 segundos em 720p em apenas 34 segundos com uma única GPU.
O modelo utiliza a tecnologia Diffusion Transformer (DiT), combinando difusão e aprendizado profundo, além de suporte a 6 graus de liberdade (6-DoF) para controle de câmera.
💡 Dica Pro: O uso da quantização NVFP4 no SANA-WM não só reduz o consumo de memória da GPU, mas também acelera o processo de desruído, tornando-o ideal para hardware com recursos limitados.