A Lightricks anunciou uma atualização significativa para seu modelo de geração de vídeos por IA LTX-Video (LTXV), que agora suporta a criação de conteúdo de vídeo com até 60 segundos. Essa inovação rompe o limite tradicional de 8 segundos da indústria, tornando o LTXV o primeiro modelo de código aberto capaz de gerar vídeos de longa duração em tempo real.

image.png

Geração de vídeos de 60 segundos: um salto do curta-metragem para narrativas longas

A nova versão do LTXV introduz uma arquitetura de streaming autoregressiva, permitindo a geração de vídeos de alta qualidade com duração de até 60 segundos a partir de uma única imagem. Em comparação com os modelos tradicionais que produzem saídas curtas, o LTXV pode transmitir vídeos em tempo real durante a geração, apresentando o conteúdo da primeira segunda quase instantaneamente, e depois continuamente construindo a cena. Essa tecnologia não apenas suporta vídeos mais longos, mas também garante a fluidez e continuidade das ações e narrativas, oferecendo aos criadores um espaço inédito para expressão narrativa.

Os usuários podem gerar vídeos com resolução de 768x512 ou maior (como 1216x704) e taxa de quadros de 24FPS, inserindo dicas de texto detalhadas juntamente com imagens iniciais. A tecnologia de renderização multiescala do LTXV captura inicialmente ações gerais em baixa resolução e depois melhora gradualmente os detalhes, garantindo o equilíbrio ideal entre velocidade e qualidade dos vídeos.

Controle em tempo real e flexibilidade na criação

A atualização do modelo LTXV inclui a funcionalidade de controle dinâmico de cenas, permitindo que os usuários ajustem elementos como postura, profundidade ou estilo em tempo real durante a geração do vídeo. Com a tecnologia IC-LoRA da Lightricks, os criadores podem aplicar continuamente sinais de controle (como detecção de postura ou detecção de bordas), permitindo um controle preciso sobre os detalhes do vídeo. Essa capacidade de "dirigir enquanto gera" transforma o LTXV de uma ferramenta de geração baseada em dicas em uma plataforma real de narrativa longa.

Além disso, o LTXV suporta diversos modos de geração, incluindo texto para vídeo, imagem para vídeo, animação por quadros-chave e extensão de vídeo. Os usuários podem até combinar várias imagens ou trechos curtos de vídeo como condições para gerar conteúdos complexos. Essa flexibilidade o torna adequado para uma ampla gama de cenários, desde vídeos curtos para redes sociais até conteúdo educativo interativo e até efeitos visuais em realidade aumentada em tempo real.

Eficiência e código aberto: empoderando criadores amplos

Outro destaque do LTXV é sua eficiência e amigabilidade com hardware. Graças à arquitetura de modelo de 13 bilhões de parâmetros e otimizações com precisão bfloat16, o LTXV pode operar com exigências muito baixas de VRAM (mínimo de 8GB) em GPUs de consumo (como NVIDIA RTX 4090 ou 5090), gerando vídeos de 60 segundos em alguns segundos. Por exemplo, no H100 GPU, o LTXV pode gerar vídeos de 5 segundos em 4 segundos, mais rápido que a reprodução em tempo real. Em contraste, modelos concorrentes como o Sora da OpenAI geralmente exigem clusters com múltiplas GPUs e custos computacionais elevados.

Como modelo de código aberto, o código e os pesos do LTXV estão disponíveis gratuitamente no GitHub e no Hugging Face, sob a licença LTXV Open Weights License, permitindo pesquisas acadêmicas e desenvolvimento da comunidade. A Lightricks também lançou ferramentas complementares, como o LTX-Video-Trainer e fluxos de trabalho integrados ao ComfyUI, reduzindo ainda mais a barreira de uso.

Impacto na indústria e perspectivas futuras

A atualização da Lightricks levou a geração de vídeos por IA a novos patamares. A capacidade de gerar vídeos de 60 segundos não só fornece aos criadores independentes, equipes de marketing e desenvolvedores de jogos a habilidade de criar conteúdo longo rapidamente, mas também estabelece a base para aplicações interativas em tempo real, como visuais em realidade aumentada dinâmicos ou sequências de jogo conduzidas pelos jogadores.

O feedback nas redes sociais indica que os usuários elogiam a velocidade e a qualidade do LTXV. Por exemplo, um usuário mencionou que gerar vídeos de 768x512 no RTX 4080 levou apenas 45 segundos, e o resultado dos vídeos de 60 segundos também impressionou, embora alguns usuários tenham mencionado que o fluxo de trabalho ainda precisa de otimização.

No entanto, as restrições de uso não comercial (limitadas a fins acadêmicos e de pesquisa) podem representar desafios para alguns criadores comerciais. A Lightricks afirmou que, no futuro, lançará uma versão comercial compatível com vídeos de 60 segundos em sua plataforma principal LTX Studio, expandindo ainda mais os cenários de aplicação.