Jimeng AI (即梦AI), perteneciente a ByteDance, lanza oficialmente la versión internacional de Jimeng 3.0, marcando así una expansión de su tecnología de generación de imágenes y videos a partir de texto al mercado global. Según AIbase, la nueva versión destaca por su calidad de imagen cinematográfica, salida en resolución 2K, materiales ultra realistas y una precisa composición tipográfica en inglés, especialmente sobresaliente en la generación de texto en inglés y el control de fuentes, superando los resultados de la versión en chino. El anuncio de su lanzamiento ha generado un gran debate en las redes sociales, y sus funciones se pueden experimentar a través del sitio web y la aplicación móvil de Jimeng.

image.png

Funciones principales: Visual cinematográfico y generación precisa de texto

La versión internacional de Jimeng 3.0, gracias a sus mejoras tecnológicas, ofrece a los usuarios una experiencia de creación visual sin precedentes. AIbase ha resumido sus funciones principales:

Calidad de imagen cinematográfica: las imágenes y videos generados poseen un alto rango dinámico (HDR) y efectos de iluminación y sombra sutiles, acercándose a la calidad de las producciones cinematográficas profesionales, ideales para publicidad de alta gama y previsualización de películas.

Salida en resolución 2K: admite imágenes y videos con resolución 2048x2048, con detalles nítidos, satisfaciendo las necesidades de las redes sociales, el arte digital y las presentaciones comerciales.

Materiales y texturas ultra realistas: utilizando un modelo de difusión mejorado, genera materiales realistas como piel, metal, tela, etc., con texturas claramente definidas, como el efecto de reflejo en el cristal de una "noche urbana cyberpunk".

Composición tipográfica precisa en inglés: optimiza la selección de fuentes, el espaciado y la alineación, generando textos en inglés (como títulos de carteles, etiquetas de productos) limpios y profesionales, con una precisión significativamente mayor que la versión en chino.

Admite creación multimodal: admite texto a imagen (T2I), imagen a imagen (I2I) y texto a video (T2V), permitiendo a los usuarios generar escenas complejas mediante indicaciones en inglés, como "una calle de Londres al estilo steampunk".

AIbase ha observado que, en las pruebas comunitarias, los usuarios generaron un cartel visualmente impactante utilizando la indicación "Un cartel futurista con el texto en inglés en negrita 'Bienvenido a 2050'", con una composición tipográfica clara y un estilo uniforme, comparable a los programas de diseño profesional.

Video oficial

Arquitectura tecnológica: Modelo multimodal y optimización OCR

La versión internacional de Jimeng 3.0 se basa en el framework VeOmni de ByteDance y en el modelo de IA Goku mejorado, integrando la generación multimodal y la tecnología de renderizado de texto. AIbase analiza que sus tecnologías principales incluyen:

Transformador de difusión mejorado: utiliza el transformador de flujo rectificado (Rectified Flow Transformer), optimizando la generación de alta resolución; la generación de imágenes de 2K tarda un promedio de 5 a 7 segundos, y la generación de video admite 5 segundos/129 fotogramas.

Módulo OCR y de composición tipográfica: conjunto de datos OCR preentrenado y lógica de diseño de fuentes, mejorando significativamente la comprensión semántica y la presentación visual del texto en inglés, reduciendo los errores ortográficos y los problemas de composición tipográfica.

Optimización de indicaciones multilingües: mediante el modelo CLIP multilingüe (referencia CLIP-ViT-L-336px), se mejora el análisis semántico de las indicaciones en inglés, asegurando que el contenido generado se ajuste a las intenciones del usuario.

Inferencia eficiente: gracias al cálculo distribuido ByteScale y la tecnología de cuantificación FP8, se reduce la necesidad de memoria de la GPU; se recomienda hardware como NVIDIA A100 (40 GB) o RTX 4090 (24 GB).

AIbase considera que el avance de Jimeng 3.0 en la composición tipográfica en inglés se debe a su optimización específica para el mercado occidental, combinando la experiencia de ByteDance en diseño visual en el ecosistema de contenido de TikTok.

Escenarios de aplicación: Desde el arte digital hasta el marketing comercial

La capacidad visual cinematográfica y la precisa composición tipográfica de la versión internacional de Jimeng 3.0 le abren un amplio abanico de escenarios de aplicación. AIbase resume sus usos principales:

Arte digital y NFT: los artistas pueden generar ilustraciones de alta resolución o videos dinámicos, como "un avatar NFT de estilo cyberpunk", para usar directamente en plataformas como OpenSea.

Cine y publicidad: admite la generación rápida de carteles de películas, cortometrajes promocionales y videos de presentación de productos, como "un avance de una película de ciencia ficción de 2025" o "un anuncio de un reloj de alta gama".

Contenido de redes sociales: genera contenido visual atractivo para plataformas como TikTok e Instagram; la composición tipográfica en inglés garantiza la coherencia de la marca a nivel internacional.

Diseño de marca: las empresas pueden generar diseños de envases o materiales de publicidad con texto en inglés preciso, como "una etiqueta para un frasco de miel orgánica" o "un logotipo para una empresa tecnológica".

Educación y difusión cultural: genera materiales de enseñanza visual o contenido de difusión cultural con texto en inglés, como "ilustraciones de lugares históricos de Londres".

Ejemplos de la comunidad muestran que los usuarios han generado un "cartel de rascacielos de Nueva York de estilo surrealista", con el título en inglés "Nueva York 2050" con una composición tipográfica fluida y un efecto visual comparable al de Adobe Photoshop. AIbase observa que su posible integración con CapCut simplificará aún más el proceso de postproducción de video.

Guía de inicio: Experiencia rápida para usuarios globales

AIbase ha averiguado que la versión internacional de Jimeng 3.0 ya está disponible a través del sitio web de Jimeng (jimeng.jianying.com) y de la aplicación para iOS/Android; algunas funciones requieren suscripción (a partir de aproximadamente 69 yuanes/mes). Los usuarios pueden empezar rápidamente siguiendo estos pasos:

Descarga la aplicación Jimeng AI (App Store/Google Play) o visita jimeng.jianying.com;

Selecciona el modelo "Image 3.0" o "Video 3.0" e introduce la indicación en inglés (por ejemplo, "Un póster cinematográfico para una película de ciencia ficción, con el título en inglés en negrita 'Búsqueda Galáctica'");

Ajusta la resolución (2K por defecto) y los parámetros de estilo, ejecuta la generación, que tarda entre 5 y 10 segundos;

Exporta la imagen (PNG/JPEG) o el video (MP4); admite compartir directamente en TikTok o guardar en el dispositivo.

La comunidad recomienda usar indicaciones específicas y especificar el estilo de fuente (como "futuristic sans-serif") para optimizar el resultado de la composición tipográfica en inglés. AIbase recuerda que los usuarios gratuitos tienen un número limitado de puntos diarios (aproximadamente 100), por lo que se recomienda la suscripción para desbloquear todas las funciones.

Respuestas de la comunidad y dirección de mejora

Tras el lanzamiento de la versión internacional de Jimeng 3.0, la comunidad ha elogiado su capacidad visual cinematográfica y su composición tipográfica en inglés. Los desarrolladores afirman que "ha llevado la generación de imágenes de IA al ámbito del diseño profesional", destacando especialmente en la creación de contenido de marketing internacional. Sin embargo, algunos usuarios señalan que la composición tipográfica en chino aún necesita optimización y que la generación de alta resolución exige un hardware potente. La comunidad también espera la compatibilidad con la salida 4K y la generación de videos más largos (por ejemplo, 10 segundos). ByteDance ha respondido que la próxima versión mejorará la coherencia de la composición tipográfica en varios idiomas y optimizará el rendimiento en dispositivos de gama baja. AIbase predice que Jimeng 3.0 podría integrarse aún más con el ecosistema Doubao, lanzando un "mercado de contenido de IA" para creadores de todo el mundo.

Dirección de prueba: https://dreamina.capcut.com/