生数 (Shēngshù)

O primeiro modelo de vídeo grande e longo, de alta consistência e alta dinâmica da China, gerando conteúdo de vídeo em alta definição com um único clique. A versão chinesa do Sora.

Produto ComumVídeoGeração de vídeo com IAVídeo em alta definição

Abrir Site

Vidu é o primeiro modelo de vídeo grande e longo, de alta consistência e alta dinâmica da China, lançado pela Shengshu Technology em conjunto com a Universidade Tsinghua. O modelo utiliza a arquitetura U-ViT, uma fusão original de Diffusion e Transformer, e suporta a geração com um único clique de conteúdo de vídeo em alta definição com até 16 segundos de duração e resolução de até 1080P. O Vidu não apenas consegue simular o mundo físico real, mas também possui uma rica imaginação, com características como geração de múltiplas câmeras e consistência espaço-temporal. Sua rápida inovação se origina do acúmulo de longo prazo da equipe em aprendizado de máquina bayesiana e modelos grandes multimodais, além de várias conquistas originais. O lançamento do Vidu representa a capacidade contínua de inovação e a liderança da Shengshu Technology na área de modelos grandes multimodais nativos. Olhando para o futuro, a arquitetura flexível poderá ser compatível com modalidades mais amplas, expandindo ainda mais os limites da capacidade universal multimodal.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

生数 (Shēngshù)

生数 (Shēngshù) Situação do Tráfego Mais Recente

生数 (Shēngshù) Tendência de Visitas

生数 (Shēngshù) Distribuição Geográfica das Visitas

生数 (Shēngshù) Fontes de Tráfego

生数 (Shēngshù) Alternativas

生数 (Shēngshù) — O primeiro modelo de vídeo grande e longo, de alta consistência e alta dinâmica da China, gerando conteúdo de vídeo em alta definição com um único clique. A versão chinesa do Sora.

HiDream.ai — Potencializa a criatividade e a produtividade humana com IA generativa.

HunyuanCustom — Arquitetura geradora de vídeo personalizado multimodal.

Liquid — Um modelo de geração multimodal que integra compreensão e geração visual.

InternVL3 — InternVL3 de código abierto: 7 tamaños que cubren el procesamiento de texto, imágenes y video; capacidad multimodal extendida al análisis de imágenes industriales

Kimi-VL — Modelo de linguagem visual híbrido de especialista de código aberto eficiente, com capacidade de raciocínio multimodal.

DreamActor-M1 — Uma estrutura de animação de imagem humana baseada em DiT, que realiza controle refinado e consistência de longo prazo.

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

MistralOCR.net — O Mistral OCR é um poderoso produto OCR de compreensão de documentos que consegue extrair texto, imagens, tabelas e equações de PDFs e imagens com altíssima precisão.

Wan 2.1 IA — O Wan 2.1 IA é um modelo avançado de geração de vídeo com IA que converte texto e imagens em vídeos de alta qualidade.

Gemini Robotics — Modelo robótico basado en Gemini 2.0, que lleva la IA al mundo físico, con capacidades visuales, lingüísticas y de movimiento.

Goku AI — Goku AI é uma ferramenta gratuita de geração de vídeo com IA, impulsionada pela tecnologia ByteDance, que converte texto ou imagens em vídeos de alta qualidade rapidamente.

Mirage — O Mirage é o primeiro modelo de base de conteúdo gerado pelo usuário (UGC) do mundo, capaz de gerar atores virtuais originais com expressões faciais e linguagem corporal naturais.

R1-Omni — R1-Omni ist ein multimodalen Emotionserkennungsmodell, das Reinforcement Learning integriert und sich auf die Verbesserung der Interpretierbarkeit der multimodalen Emotionserkennung konzentriert.

GO-1 — A Zhiyuan lançou o primeiro modelo de base de incorporação universal GO-1, propondo inovadoramente a arquitetura ViLLA, impulsionando o desenvolvimento da inteligência incorporada.

OpenAI Agents SDK — O OpenAI Agents SDK é um kit de desenvolvimento para construir agentes autônomos, simplificando a orquestração de fluxos de trabalho com múltiplos agentes.

SmolVLM2 — SmolVLM2 é um modelo de linguagem leve focado na análise e geração de conteúdo de vídeo.

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

Aya Vision — Aya Vision é um modelo de visão multimodal multilíngue lançado pela Cohere, com o objetivo de melhorar a capacidade de compreensão visual e textual em cenários multilíngues.

PSYCHE AI — PSYCHE AI é uma ferramenta que gera vídeos de IA realistas rapidamente, oferecendo diversas opções de personagens e vozes de IA de alta qualidade.

EgoLife — EgoLife é um projeto de assistente de IA para a vida cotidiana, de longo prazo, multimodal e multiperspectivo, com o objetivo de impulsionar a pesquisa em compreensão de contexto de longo prazo.

UniTok — UniTok é um tokenizador visual unificado para geração e compreensão visual.

ViDoRAG — ViDoRAG é uma estrutura de agente de raciocínio iterativo dinâmico que combina recuperação de documentos visuais com geração aprimorada.

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

Mochii AI — Mochii AI é um ecossistema de inteligência artificial personalizado, com suporte de modelos de ponta, que impulsiona o futuro da colaboração entre humanos e IA.

M2RAG — Repositório de código de benchmark para geração aprimorada por recuperação em contexto multimodal.

TheoremExplainAgent — TheoremExplainAgent é um sistema inteligente usado para gerar vídeos explicativos multimodais de teoremas.

Gemini 2.0 Flash-Lite — Gemini 2.0 Flash-Lite est un modèle linguistique efficace, optimisé pour le traitement de longs textes et de nombreux scénarios d'application.

Phi-4-multimodal-instruct — Phi-4-multimodal-instruct é um modelo básico multimodal leve desenvolvido pela Microsoft, que suporta entrada de texto, imagem e áudio.

Magma-8B — Magma-8B é um modelo de IA multimodal lançado pela Microsoft, capaz de processar entradas de imagem e texto e gerar saídas de texto.