A Zhihu AI lançou seu novo modelo de geração de vídeo, o CogVideoX, marcando mais um avanço significativo no desenvolvimento de tecnologias multimodais da empresa.

微信截图_20240726111755.png

As principais características técnicas do CogVideoX incluem:

  1. Estrutura de autocodificador variacional tridimensional (3D VAE): Esta estrutura desenvolvida pela Zhihu AI consegue comprimir os dados de vídeo originais para 2% do tamanho original, reduzindo os custos e a dificuldade de treinamento. Combinada com o módulo de codificação de posição 3D RoPE, melhora a capacidade de capturar a relação entre quadros na dimensão temporal, estabelecendo dependências de longo prazo no vídeo.

  2. Modelo de compreensão de vídeo de ponta a ponta: Melhora a capacidade do modelo de entender texto e seguir instruções, garantindo que os vídeos gerados atendam melhor às necessidades do usuário e possam lidar com prompts longos e complexos.

  3. Arquitetura Transformer com integração tridimensional de texto, tempo e espaço: Um design inovador do Expert Block permite o alinhamento do espaço modal de texto e vídeo, e o mecanismo Full Attention otimiza os efeitos de interação entre os modos.

O modelo CogVideoX já está disponível no PC, aplicativo móvel e miniaplicativo da Zhihu Qingyan. Os usuários podem experimentar gratuitamente o serviço de geração de vídeo a partir de texto AI e geração de vídeo a partir de imagens através da função "Qingying" (Ying). As principais características do Qingying incluem geração rápida, capacidade eficiente de seguir instruções, coerência de conteúdo e flexibilidade na organização das cenas.

Além disso, a plataforma aberta de modelos grandes da Zhihu, bigmodel.cn, também implementou o "Qingying", permitindo que empresas e desenvolvedores utilizem suas funções através de chamadas de API. A Zhihu AI validou a eficácia da Lei de Escalonamento no campo da geração de vídeo e continuará expandindo a escala de dados e modelos, pesquisando novas arquiteturas de modelos para comprimir informações de vídeo de forma mais eficiente e integrar de forma mais completa o conteúdo de texto e vídeo.

Endereço para experimentar:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu