El equipo de Tencent ha lanzado oficialmente su nuevo modelo de imagen Hunyuan 2.0 (Hunyuan Image2.0), marcando un hito en la tecnología de generación de imágenes con inteligencia artificial, que ahora alcanza una respuesta "en milisegundos".
El nuevo modelo ha mejorado notablemente en velocidad en comparación con la versión anterior. La cantidad de parámetros del modelo Hunyuan 2.0 ha aumentado en una magnitud, combinando eficientes codificadores de imágenes y una nueva arquitectura de difusión. Esto permite una respuesta rápida en milisegundos, mientras que los productos comerciales similares generalmente tardan entre 5 y 10 segundos en la inferencia. Los usuarios pueden obtener salidas de imágenes en tiempo real mientras ingresan texto o realizan comandos por voz, cambiando drásticamente el tradicional patrón de "generar-imagen-esperar-reintentar", mejorando significativamente la experiencia de interacción del usuario.
Calidad hiperrealista de las imágenes
A excepción del avance en velocidad, el modelo Hunyuan 2.0 también ha mejorado significativamente en términos de calidad de generación de imágenes. Este modelo utiliza aprendizaje por refuerzo y ha incorporado gran cantidad de conocimientos estéticos humanos para evitar efectivamente el "sabor de IA" común en las imágenes generadas por IA. Las imágenes generadas no solo son realistas y detalladas, sino que también tienen una alta utilidad. En las pruebas de evaluación autorizadas internacionales del GenEval, el modelo Hunyuan 2.0 superó con creces el 95% en la precisión de comprensión y generación de instrucciones complejas de texto, superando a otros modelos similares.
Función innovadora de tablero de dibujo en tiempo real
Esta actualización también introduce la función de tablero de dibujo en tiempo real, aprovechando la capacidad de generación instantánea de imágenes del nuevo modelo. Mientras los usuarios dibujan esquemas o ajustan parámetros, el área de previsualización puede generar simultáneamente efectos de color. Esta función rompe el flujo tradicional de "dibujar-esperar-modificar", facilitando enormemente el proceso creativo de diseñadores profesionales. Además, el tablero de dibujo en tiempo real admite la fusión de múltiples bocetos. Los usuarios pueden cargar varios esquemas, y la IA coordinará automáticamente la perspectiva y la luz según las indicaciones del usuario para generar una imagen fusionada, enriqueciendo aún más la experiencia interactiva de la generación de imágenes por IA.
Tencent también reveló que está desarrollando un modelo de generación de imágenes multimodal nativo, que mostrará un rendimiento destacado en la generación iterativa de imágenes y la experiencia de interacción en tiempo real, esperando ofrecer una experiencia de creación más rica a los usuarios.
Enlace al producto: https://hunyuan.tencent.com/