El Grupo Kunlun Wanyi anunció el lanzamiento de su último avance tecnológico, el modelo SkyReels-A3, una herramienta para crear personajes digitales impulsada por audio basada en el modelo de difusión de video DiT (Diffusion Transformer). La presentación de SkyReels-A3 marca un gran avance en el campo de la creación de contenido digital, ya que es capaz de crear personajes digitales con cualquier duración y modos de audio completos, ofreciendo a los usuarios una nueva experiencia.
La función principal del modelo SkyReels-A3 es hacer que imágenes estáticas o videos "vivan", permitiendo que las personas en las imágenes hablen o canten según el contenido del audio al subir una imagen de rostro humano y el audio correspondiente. Además, el modelo también permite crear nuevos contenidos de video, donde los usuarios solo necesitan proporcionar una imagen de rostro humano, un audio y una descripción textual para generar un video en el que el personaje realice la actuación según lo solicitado. SkyReels-A3 también puede cambiar los diálogos de videos existentes, emparejando automáticamente nuevas expresiones labiales, expresiones faciales y actuaciones, manteniendo la coherencia visual.
Este modelo ha mejorado y optimizado aspectos como la entrada de palabras clave de texto, la naturalidad de la interacción de acciones, el control de tomas y la duración de la salida de video. SkyReels-A3 admite salidas de video de hasta 60 segundos por escena, y admite duraciones ilimitadas para múltiples escenas, satisfaciendo diferentes necesidades de creación. Kunlun Wanyi también realizó optimizaciones específicas para aplicaciones prácticas como transmisiones en línea, mejorando la consistencia de la generación de videos y la naturalidad y claridad de ciertas acciones interactivas.
El lanzamiento de SkyReels-A3 no solo ofrece un respaldo técnico sólido para aplicaciones comerciales como publicidad y ventas en vivo, sino que también brinda más posibilidades para creaciones artísticas como videos de música, fragmentos de películas o videos de discursos. Kunlun Wanyi introdujo un módulo de control de tomas basado en la estructura ControlNet, logrando un control preciso a nivel de fotograma de las tomas, preestableciendo 8 parámetros comunes de tomas, y los usuarios pueden elegir la toma correspondiente según sus necesidades, además, la intensidad de cada toma se puede ajustar continuamente entre 0-100% para generar efectos profesionales de tomas.
El lanzamiento del modelo SkyReels-A3 indica que la creación de contenido digital se volverá más eficiente y conveniente. El Grupo Kunlun Wanyi ofrece soluciones de producción de IA de bajo costo, de alta fidelidad y de bajo umbral para campos como la producción cinematográfica, las transmisiones virtuales, el desarrollo de juegos y la creación de contenido educativo mediante esta tecnología innovadora. El lanzamiento de SkyReels-A3 representa la posibilidad de que el sonido se convierta en imagen, brindando una eficiencia y conveniencia sin precedentes para la creación de contenido personalizado e interactivo. Quizás el próximo video viral provenga de tu inspiración.
Página principal del proyecto SkyReels-A3:
https://skyworkai.github.io/skyreels-a3.github.io/
Dirección del sitio web oficial de SkyReels:
https://www.skyreels.ai/home
Dirección de los modelos abiertos de la serie SkyReels:
https://huggingface.co/Skywork