Recentemente, a MiniMax lançou a segunda geração do seu modelo de inteligência artificial para vídeo, o Hailuo02, trazendo melhorias significativas em desempenho e preço. Este novo modelo adota uma arquitetura chamada Reatribuição de Cálculo com Consciência de Ruído (NCR), que a MiniMax afirma ter aumentado a eficiência de treinamento e inferência em 2,5 vezes. A arquitetura NCR processa sequências de vídeos longos de maneira diferente dependendo da fase de treinamento. Na fase inicial, muito ruído é introduzido nos dados e os vídeos são comprimidos ao máximo; enquanto na fase em que os vídeos se tornam mais claros, o modelo processa a resolução total.

image.png

Comparado à versão anterior, o número de parâmetros do Hailuo02 aumentou três vezes e a quantidade de dados de treinamento foi ampliada quatro vezes. A MiniMax também menciona que a qualidade e a diversidade dos dados foram melhoradas. Embora a empresa não tenha revelado o número exato de parâmetros ou o tamanho do conjunto de dados, eles afirmam que o Hailuo02 fez avanços significativos no processamento de prompts complexos e simulações de processos físicos. A MiniMax também se orgulha de declarar que o Hailuo02 é atualmente o único modelo capaz de gerar cenas complexas com precisão, como movimentos de ginástica artística.

image.png

O Hailuo02 oferece três variantes: vídeo de seis segundos em resolução 768p, vídeo de dez segundos em resolução 768p e vídeo de seis segundos em resolução 1080p. Já as versões anteriores eram limitadas a vídeos de seis segundos em resolução 720p, com uma taxa de quadros de 25fps. Nos testes de benchmarking do Artificial Analysis Video Arena, o Hailuo02 ficou em segundo lugar na categoria imagem para vídeo, logo atrás do Seedance da ByteDance, e à frente do Veo3 da Google. No entanto, a versão atual do Veo3 não suporta áudio, o que constitui uma grande desvantagem em sua atratividade.

Desde seu lançamento em agosto do ano passado, mais de 3,7 bilhões de vídeos foram criados através da plataforma Hailuo. A MiniMax descreve a adoção inicial como relativamente aleatória, mas rapidamente atraiu a atenção de criadores de todo o mundo. Os usuários podem acessar o modelo por meio de uma interface web, aplicativo móvel ou API. Para os usuários da API, a taxa para gerar um vídeo de seis segundos em resolução 768p é de US$ 0,28, enquanto a versão em 1080p custa US$ 0,49. Em comparação, usar o Veo3 da Google para gerar um vídeo de oito segundos em 1080p pode custar cerca de US$ 3, dependendo do plano escolhido pelo usuário.

A MiniMax disse que está trabalhando para melhorar a velocidade de geração, estabilidade e adicionar novas funcionalidades além das atuais opções de texto para vídeo e imagem para vídeo. Em comparação, plataformas concorrentes como a Runway já oferecem recursos mais avançados, como rastreamento de câmera. O lançamento do Hailuo02 faz parte das atividades da semana da MiniMax, durante a qual a empresa também lançou um modelo de linguagem aberto, o MiniMax-M1, juntamente com a contagem de parâmetros e o documento técnico. Até o momento, os detalhes técnicos específicos da arquitetura de treinamento do Hailuo02 ainda não foram divulgados.

Fique ligado:

🌟 O Hailuo02 é o novo modelo de IA de vídeo da MiniMax, utilizando a arquitetura de Reatribuição de Cálculo com Consciência de Ruído (NCR) e aumentando a eficiência de treinamento e inferência em 2,5 vezes.  

💰 Este modelo oferece vídeos com maior resolução e duração, e os custos de geração de vídeo são significativamente menores do que os do Veo3 da Google.  

📊 Desde seu lançamento, a plataforma Hailuo já gerou mais de 3,7 bilhões de vídeos, atraindo uma grande quantidade de criadores globais.