A versão internacional do Jimeng AI (Jimeng AI), da ByteDance, foi lançada oficialmente, marcando uma expansão ainda maior de sua tecnologia de geração de imagens e vídeos a partir de texto para o mercado global. De acordo com o AIbase, a nova versão tem como destaques principais a qualidade de imagem cinematográfica, a saída em resolução 2K, materiais ultrarrealistas e tipografia inglesa precisa, especialmente no que diz respeito à geração de texto em inglês e ao controle de fontes, superando os resultados da versão chinesa anterior. O anúncio de lançamento gerou grande discussão nas redes sociais, e os recursos podem ser acessados pelo site e aplicativo móvel do Jimeng.

image.png

Recursos principais: Visual cinematográfico e geração de texto precisa

A versão internacional do Jimeng 3.0, por meio de atualizações tecnológicas, oferece aos usuários uma experiência de criação visual sem precedentes. O AIbase analisou seus principais recursos:

Qualidade de imagem cinematográfica: as imagens e vídeos gerados possuem alto alcance dinâmico (HDR) e efeitos de luz e sombra refinados, aproximando-se do nível de produção cinematográfica profissional, ideal para publicidade de alto nível e pré-visualização de filmes.

Saída em resolução 2K: suporta imagens e vídeos com resolução de 2048x2048 pixels, com detalhes nítidos, atendendo às necessidades de mídia social, arte digital e apresentações comerciais.

Materiais e texturas ultrarrealistas: usando um modelo de difusão aprimorado, gera materiais realistas de pele, metal, tecido etc., com texturas de objetos bem definidas, como o efeito de reflexo de vidro em uma "paisagem noturna cyberpunk".

Tipografia inglesa precisa: otimiza a seleção de fontes, espaçamento e alinhamento, gerando textos em inglês (como títulos de pôsteres, etiquetas de produtos) limpos e profissionais, com precisão significativamente maior que a versão chinesa.

Suporte à criação multi-modal: suporta texto para imagem (T2I), imagem para imagem (I2I) e texto para vídeo (T2V), permitindo que os usuários gerem cenários complexos usando prompts em inglês, como "uma rua de Londres em estilo steampunk".

O AIbase observou que, em testes comunitários, os usuários geraram pôsteres visualmente impressionantes usando o prompt "A futuristic billboard with bold English text ‘Welcome to 2050’", com tipografia em inglês clara e estilo uniforme, comparável a softwares de design profissional.

Vídeo da fonte oficial

Arquitetura tecnológica: Modelo multi-modal e otimização OCR

A versão internacional do Jimeng 3.0 é baseada na estrutura VeOmni da ByteDance e no modelo Goku AI aprimorado, combinando geração multi-modal e tecnologia de renderização de texto. A análise do AIbase indica que suas tecnologias principais incluem:

Transformador de difusão aprimorado: usa o transformador de fluxo retificado (Rectified Flow Transformer), otimizando a geração de alta resolução, gerando imagens 2K em média de 5 a 7 segundos, e a geração de vídeo suporta 5 segundos/129 quadros.

Módulo OCR e de composição tipográfica: conjunto de dados OCR pré-treinado e lógica de layout de fonte, melhorando significativamente a compreensão semântica e a apresentação visual de texto em inglês, reduzindo erros de ortografia e desalinhamento de texto.

Otimização de prompts multilíngues: por meio de um modelo CLIP multilíngue (referência CLIP-ViT-L-336px), melhora a análise semântica de prompts em inglês, garantindo que o conteúdo gerado esteja altamente alinhado com a intenção do usuário.

Inferência eficiente: usando computação distribuída ByteScale e tecnologia de quantização FP8, reduz a necessidade de memória da GPU, sendo recomendado o uso de hardware NVIDIA A100 (40 GB) ou RTX 4090 (24 GB).

O AIbase acredita que o avanço do Jimeng 3.0 na composição tipográfica em inglês se deve à sua otimização específica para o mercado ocidental, combinando a experiência de design visual da ByteDance no ecossistema de conteúdo do TikTok.

Cenários de aplicação: Da arte digital ao marketing comercial

A capacidade visual cinematográfica e a composição tipográfica precisa da versão internacional do Jimeng 3.0 abrem um amplo leque de cenários de aplicação. O AIbase resume seus principais usos:

Arte digital e NFTs: artistas podem gerar ilustrações de alta resolução ou vídeos dinâmicos, como "avatares NFT em estilo cyberpunk", diretamente para plataformas como OpenSea.

Cinema e publicidade: suporta a geração rápida de pôsteres de filmes, curtas promocionais e vídeos de demonstração de produtos, como "trailer de filme de ficção científica de 2025" ou "anúncio de relógio de luxo".

Conteúdo de mídia social: gera conteúdo visual atraente para plataformas como TikTok e Instagram, com tipografia em inglês garantindo a consistência da marca internacional.

Design de marca: empresas podem gerar designs de embalagens ou materiais promocionais com texto em inglês preciso, como "rótulo de frasco de mel orgânico" ou "logotipo de empresa de tecnologia".

Educação e difusão cultural: gera materiais de ensino visual ou conteúdo de divulgação cultural com texto em inglês, como "ilustrações de marcos históricos de Londres".

Casos de uso comunitário mostram que os usuários usaram o Jimeng 3.0 para gerar "pôsteres de horizonte de Nova York em estilo surrealista", com o título em inglês "New York 2050" com tipografia fluida e efeitos visuais comparáveis ao Adobe Photoshop. O AIbase observou que sua potencial integração com o CapCut simplificará ainda mais o processo de pós-produção de vídeo.

Guia de início rápido: Experiência rápida para usuários globais

O AIbase descobriu que a versão internacional do Jimeng 3.0 já está disponível por meio do site do Jimeng (jimeng.jianying.com) e do aplicativo iOS/Android, sendo que alguns recursos exigem assinatura (a partir de cerca de 69 yuans/mês). Os usuários podem seguir as etapas abaixo para começar rapidamente:

Baixe o aplicativo Jimeng AI (App Store/Google Play) ou acesse jimeng.jianying.com;

Selecione o modelo "Image 3.0" ou "Video 3.0" e insira um prompt em inglês (como "A cinematic poster for a sci-fi movie, with bold English title ‘Galaxy Quest’");

Ajuste a resolução (2K por padrão) e os parâmetros de estilo, execute a geração, que leva cerca de 5 a 10 segundos;

Exporte a imagem (PNG/JPEG) ou vídeo (MP4), com suporte para compartilhamento direto no TikTok ou salvamento no dispositivo.

A comunidade recomenda o uso de prompts específicos e a especificação do estilo da fonte (como "futuristic sans-serif") para otimizar o efeito de composição tipográfica em inglês. O AIbase lembra que os usuários gratuitos têm um número limitado de pontos diários (cerca de 100 pontos), sendo recomendada a assinatura para desbloquear todos os recursos.

Reação da comunidade e direções de melhoria

Após o lançamento da versão internacional do Jimeng 3.0, a comunidade elogiou muito sua capacidade visual cinematográfica e de composição tipográfica em inglês. Os desenvolvedores disseram que "leva a geração de imagens de IA para o campo do design profissional", com destaque para a criação de conteúdo de marketing internacional. No entanto, alguns usuários apontaram que o efeito de composição tipográfica em chinês ainda precisa ser otimizado e que a geração de alta resolução exige hardware mais potente. A comunidade também espera suporte para saída 4K e geração de vídeos mais longos (como 10 segundos). A ByteDance respondeu que a próxima versão melhorará a consistência da composição tipográfica multilíngue e otimizará o desempenho em dispositivos de baixa potência. O AIbase prevê que o Jimeng 3.0 pode ser integrado ainda mais ao ecossistema Doubao, lançando um "mercado de conteúdo de IA" para criadores globais.

Endereço de acesso: https://dreamina.capcut.com/