La Universidad de Zhejiang y Alibaba han lanzado un nuevo modelo de voz llamado OmniAvatar, lo que marca un nuevo avance en la tecnología de personas digitales. Este modelo utiliza la voz como entrada para generar videos de personas digitales completas de manera natural y fluida, destacando especialmente en escenas musicales, donde la sincronización entre los movimientos de los labios y el audio es precisa y realista.
OmniAvatar permite controlar con precisión los detalles de la generación mediante indicaciones de texto. Los usuarios pueden personalizar la amplitud de las acciones de las personas, el entorno de fondo y la expresión emocional, mostrando una alta flexibilidad. Además, este modelo puede generar videos donde las figuras virtuales interactúan con objetos, brindando amplias oportunidades de aplicación en escenarios comerciales como anuncios para comercio electrónico y publicidad. Por ejemplo, las marcas pueden utilizar OmniAvatar para crear anuncios dinámicos y mejorar la experiencia de interacción con los consumidores.
Como proyecto de código abierto, OmniAvatar ya ha sido publicado en GitHub y ha atraído la atención de desarrolladores de todo el mundo. Su excelente desempeño en la generación de expresiones faciales, animaciones de media cuerpo y cuerpo completo supera a los modelos existentes. Según informes, este modelo también admite aplicaciones en múltiples escenarios, incluyendo programas de podcast, interacciones humanas y actuaciones dinámicas, demostrando su gran potencial en el campo de la creación de contenido.
Expertos de la industria afirman que el lanzamiento de OmniAvatar no solo mejora la autenticidad y el control de la tecnología de personas digitales impulsadas por audio, sino que también impulsa la innovación en campos como el marketing, la educación y el entretenimiento. En el futuro, la Universidad de Zhejiang y Alibaba continuarán profundizando su colaboración para explorar más posibilidades de la inteligencia artificial multimodal.