O Colossal-AI lançou o Open-Sora, uma solução de arquitetura completa e de código aberto para reproduzir o Sora, alegando uma redução de 46% no custo de reprodução e a expansão do comprimento da sequência de entrada do treinamento do modelo para 819K patches. A solução de reprodução do algoritmo Sora, descrita no relatório técnico do Sora, utiliza uma rede de compressão de vídeo para comprimir vídeos de vários tamanhos em uma sequência de blocos espaço-temporais de um espaço latente. Em seguida, utiliza um Transformer de Difusão para desruidificar e, por fim, decodifica para gerar o vídeo. O Open-Sora resume o pipeline de treinamento possivelmente usado pelo Sora, fornecendo uma solução de arquitetura completa para reproduzir o Sora, abrangendo todo o processo, do processamento de dados à inferência de treinamento. Atualmente, o Open-Sora oferece uma solução de arquitetura completa para reproduzir o Sora, abrangendo todo o processo, do processamento de dados à inferência de treinamento, suportando resolução dinâmica, várias estruturas de modelo, vários métodos de compressão de vídeo e várias otimizações de treinamento paralelo. Em termos de desempenho, tomando como exemplo o teste de desempenho do modelo DiT-XL/2 em uma única GPU H800 SXM 8*80GB, com um comprimento de sequência de 600K, a solução Open-Sora apresentou uma melhoria de desempenho e redução de custos superior a 40% em comparação com a solução de referência. Endereço do Open-Sora no GitHub: https://github.com/hpcaitech/Open-Sora.
Solução de Reprodução Open-Sora: Custo Reduzido em 46%, Sequência Expandida para 819K Patches

开源中国
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.