Zhejiang University y Alibaba lanzan conjuntamente OmniAvatar: modelo de avatar integral impulsado por audio que hace su debut sorprendente

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Jul 2, 2025

La Universidad de Zhejiang y Alibaba han lanzado un nuevo modelo de voz llamado OmniAvatar, lo que marca un nuevo avance en la tecnología de personas digitales. Este modelo utiliza la voz como entrada para generar videos de personas digitales completas de manera natural y fluida, destacando especialmente en escenas musicales, donde la sincronización entre los movimientos de los labios y el audio es precisa y realista.

OmniAvatar permite controlar con precisión los detalles de la generación mediante indicaciones de texto. Los usuarios pueden personalizar la amplitud de las acciones de las personas, el entorno de fondo y la expresión emocional, mostrando una alta flexibilidad. Además, este modelo puede generar videos donde las figuras virtuales interactúan con objetos, brindando amplias oportunidades de aplicación en escenarios comerciales como anuncios para comercio electrónico y publicidad. Por ejemplo, las marcas pueden utilizar OmniAvatar para crear anuncios dinámicos y mejorar la experiencia de interacción con los consumidores.

Como proyecto de código abierto, OmniAvatar ya ha sido publicado en GitHub y ha atraído la atención de desarrolladores de todo el mundo. Su excelente desempeño en la generación de expresiones faciales, animaciones de media cuerpo y cuerpo completo supera a los modelos existentes. Según informes, este modelo también admite aplicaciones en múltiples escenarios, incluyendo programas de podcast, interacciones humanas y actuaciones dinámicas, demostrando su gran potencial en el campo de la creación de contenido.

Expertos de la industria afirman que el lanzamiento de OmniAvatar no solo mejora la autenticidad y el control de la tecnología de personas digitales impulsadas por audio, sino que también impulsa la innovación en campos como el marketing, la educación y el entretenimiento. En el futuro, la Universidad de Zhejiang y Alibaba continuarán profundizando su colaboración para explorar más posibilidades de la inteligencia artificial multimodal.

OmniAvatar Universidad de Zhejiang Alibaba Tecnología de avatares

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

MiniMax presenta el primer mercado de recreación de agentes de inteligencia artificial a nivel mundial, se abre un fondo de 150.000 dólares para una nueva forma de creación

MiniMax lanza Agent Remix Marketplace, primera plataforma de recreación colaborativa con IA. Ofrece remezcla de obras, beneficios para creadores y concurso global con premios de $150K.....

Aug 12, 2025

Diario de IA: El modelo de razonamiento visual GLM-4.5V de Zhipu se hace público; Damo Academy libera tres tecnologías clave de inteligencia corporal; 360 Zhinai presenta la serie de modelos Light-IF

¡Bienvenido al programa 【Diario de IA】! Aquí es tu guía para explorar el mundo de la inteligencia artificial cada día. Cada día, te presentamos los temas destacados del ámbito de la IA, enfocándonos en desarrolladores, ayudándote a comprender las tendencias tecnológicas y conocer aplicaciones de productos de IA innovadores. Productos de IA recientes, haz clic para obtener más información: https://top.aibase.com/1. Lanzamiento público y apertura de código del modelo GLM-4.5V de Zhipu: Zhipu anunció y abrió el código del modelo de razonamiento visual de 100B de nivel mundial, el mejor modelo de razonamiento visual de código abierto a nivel mundial.

Aug 12, 2025

220

Yushu Technology participará en el primer Campeonato Mundial de Robots Humanoides, su hardware será utilizado por múltiples equipos

Según un mensaje del公众号 oficial de Yushu Technology, la empresa participará en el primer Campeonato Mundial de Robots Humanoides del 14 al 17 de agosto. Yushu reveló que, además de su propio equipo, varios equipos utilizarán el hardware de robots Yushu en el torneo, pero incorporarán sus propios algoritmos desarrollados. Debido a que los proyectos del torneo son intensos y numerosos, el equipo de Yushu participará solo en algunas competencias, no en todas las pruebas del evento completo. Esta aparición no solo demuestra la fuerza de Yushu en el campo del hardware de robots humanoides, sino que también destaca la amplia aplicación de sus equipos en múltiples equipos, reflejando su tecnología.

Aug 12, 2025

650

¡La batalla de Vibe Coding se intensifica! Vercel V0 se transforma en un agente de inteligencia artificial integral, ¡todo automáticamente desde el front-end hasta el back-end y la redacción!

Con el rápido avance de la inteligencia artificial en el campo del desarrollo de software, la competencia entre las herramientas de Vibe Coding (codificación con ambiente) se ha vuelto cada vez más intensa. Recientemente, V0, la plataforma de codificación impulsada por IA de Vercel, ha recibido una actualización importante, pasando de ser una herramienta exclusivamente para la generación del front-end a convertirse en un agente de inteligencia artificial integral que admite la planificación automática, investigación, construcción y depuración, abarcando todo el proceso de desarrollo, desde el front-end, back-end, redacción hasta la lógica de la aplicación. IAbase recopila exclusivamente las últimas novedades, llevándole a conocer en detalle los avances revolucionarios de V0 y sus ventajas competitivas en el ámbito de Vibe Coding.

Aug 12, 2025

560

Huawei presenta una nueva tecnología para optimizar la inferencia de modelos grandes: la tecnología UCM reduce la dependencia de HBM

El 12 de agosto, Huawei lanzará en el foro 'Aplicación y desarrollo de la inteligencia artificial en finanzas 2025' una innovadora tecnología de inferencia de IA llamada UCM (Administrador de memoria de datos de inferencia). Esta tecnología tiene como objetivo reducir la dependencia de China en HBM (memoria de ancho de banda alto) para la inferencia de IA y mejorar significativamente el rendimiento de los modelos grandes en el país. UCM se basa en KV Cache, integrando herramientas de algoritmos de aceleración de múltiples tipos de caché, gestionando jerárquicamente los datos de memoria generados durante la inferencia, ampliando la ventana de contexto y logrando una alta capacidad de procesamiento con baja latencia.

Aug 12, 2025

410

Autodromo se integra completamente con el modelo de gran escala Tongyi y lanza el primer Agente nativo de inteligencia artificial para mapas

El mapa Autodromo, perteneciente al Grupo Alibaba, ha alcanzado una cooperación profunda con el laboratorio Tongyi y anunció la creación conjunta del primer mapa nativo de inteligencia artificial en el mundo. Este resultado de cooperación ya se ha implementado en la versión 2025 del mapa Autodromo. Uno de los puntos destacados de la versión 2025 del mapa Autodromo es el lanzamiento de un agente inteligente llamado "Maestro Gao". Este agente puede interactuar con los usuarios de manera natural a través de múltiples formas de entrada como audio y texto. Para lograr una experiencia de interacción más precisa y fluida, Autodromo colaboró con el equipo de voz del laboratorio Tongyi para construir un sistema de reconocimiento de voz integral.

Aug 12, 2025

580

Qualcomm anuncia: el nuevo modelo de código abierto de OpenAI gpt-oss-20b se puede ejecutar localmente en terminales Snapdragon

OpenAI lanza el modelo GPT-OSS-20B de 20B parámetros, optimizado para móviles con Qualcomm, ofreciendo privacidad y rendimiento similar a O3-mini. Disponible en Hugging Face, marca un avance en IA local.....

Aug 12, 2025

Musk confirma el cierre del proyecto Tesla Dojo y se orienta hacia el desarrollo de chips AI5 y AI6

Tesla cierra equipo Dojo AI, cancelando clusters de 2da generación. Enfoque cambia a chips AI5/AI6 para autos y robots. Musk prioriza eficiencia en arquitectura única.....

Aug 12, 2025

Usuarios pagos en primer lugar: Claude AI presenta una función de memoria de conversaciones históricas y admite cambio de múltiples fondos

Claude AI lanza 'memoria' para guardar contexto y progreso automáticamente, permitiendo conversaciones continuas. Disponible en web/escritorio/móvil para usuarios Max/Team/Enterprise, con soporte para Pro próximamente. Difiere de ChatGPT al extraer historial automáticamente.....

Aug 12, 2025

Apple prueba una nueva generación de Siri: se puede controlar varios aplicaciones con la voz

Apple prueba nueva Siri con operaciones entre apps, como editar y enviar fotos. Usa el marco App Intents para más funciones. Pruebas en Uber y WhatsApp. Versión inteligente pospuesta hasta 2026.....

Aug 12, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Zhejiang University y Alibaba lanzan conjuntamente OmniAvatar: modelo de avatar integral impulsado por audio que hace su debut sorprendente

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

MiniMax presenta el primer mercado de recreación de agentes de inteligencia artificial a nivel mundial, se abre un fondo de 150.000 dólares para una nueva forma de creación

Diario de IA: El modelo de razonamiento visual GLM-4.5V de Zhipu se hace público; Damo Academy libera tres tecnologías clave de inteligencia corporal; 360 Zhinai presenta la serie de modelos Light-IF

Yushu Technology participará en el primer Campeonato Mundial de Robots Humanoides, su hardware será utilizado por múltiples equipos

¡La batalla de Vibe Coding se intensifica! Vercel V0 se transforma en un agente de inteligencia artificial integral, ¡todo automáticamente desde el front-end hasta el back-end y la redacción!

Huawei presenta una nueva tecnología para optimizar la inferencia de modelos grandes: la tecnología UCM reduce la dependencia de HBM

Autodromo se integra completamente con el modelo de gran escala Tongyi y lanza el primer Agente nativo de inteligencia artificial para mapas

Qualcomm anuncia: el nuevo modelo de código abierto de OpenAI gpt-oss-20b se puede ejecutar localmente en terminales Snapdragon

Musk confirma el cierre del proyecto Tesla Dojo y se orienta hacia el desarrollo de chips AI5 y AI6

Usuarios pagos en primer lugar: Claude AI presenta una función de memoria de conversaciones históricas y admite cambio de múltiples fondos

Apple prueba una nueva generación de Siri: se puede controlar varios aplicaciones con la voz