ByteDance lanza LatentSync, un nuevo modelo de IA de código abierto para un control preciso de la sincronización de labios

AIbase基地

Publicado elNoticias de IA · 10 minutos de lectura · Jan 6, 2025

680

ByteDance ha lanzado recientemente una innovadora tecnología de código abierto llamada LatentSync, un marco de sincronización labial de extremo a extremo basado en un modelo de difusión latente condicionado por audio. Esta tecnología permite una sincronización precisa entre los movimientos labiales de una persona en un video y el audio sin necesidad de representaciones de movimiento intermedias. A diferencia de los métodos de sincronización labial basados en difusión de espacio de píxeles o generación en dos etapas, LatentSync aprovecha directamente la potencia de Stable Diffusion para modelar de manera más efectiva las complejas relaciones audio-visuales.

Los estudios han demostrado que los métodos de sincronización labial basados en difusión presentan una mala consistencia temporal debido a las inconsistencias en el proceso de difusión entre fotogramas. Para solucionar este problema, LatentSync introduce la técnica de Alineación de Representaciones Temporales (TREPA). TREPA utiliza las representaciones temporales extraídas por un modelo de video autosupervisado a gran escala para alinear los fotogramas generados con los fotogramas reales, mejorando así la consistencia temporal mientras se mantiene la precisión de la sincronización labial.

Además, el equipo de investigación profundizó en el problema de convergencia de SyncNet y, a través de extensas investigaciones empíricas, identificó factores clave que afectan la convergencia de SyncNet, incluyendo la arquitectura del modelo, los hiperparámetros de entrenamiento y los métodos de preprocesamiento de datos. Al optimizar estos factores, la precisión de SyncNet en el conjunto de pruebas HDTF aumentó significativamente del 91% al 94%. Dado que no se modificó el marco de entrenamiento general de SyncNet, esta experiencia también se puede aplicar a otros métodos de sincronización labial y animación de retratos impulsada por audio que utilizan SyncNet.

Ventajas de LatentSync

Marco de extremo a extremo: sin representaciones de movimiento intermedias, genera directamente movimientos labiales sincronizados a partir del audio.

Generación de alta calidad: utiliza la potencia de Stable Diffusion para generar videos de habla dinámicos y realistas.

Consistencia temporal: mediante la tecnología TREPA, mejora la consistencia temporal entre los fotogramas de video.

Optimización de SyncNet: resuelve el problema de convergencia de SyncNet, mejorando significativamente la precisión de la sincronización labial.

Principio de funcionamiento

El núcleo de LatentSync se basa en la técnica de restauración de imagen a imagen, que requiere una imagen enmascarada como referencia. Para integrar las características visuales faciales del video original, el modelo también recibe una imagen de referencia. Esta información de entrada se concatena por canales y se introduce en una red U-Net para su procesamiento.

El modelo utiliza el extractor de características de audio preentrenado Whisper para extraer incrustaciones de audio. El movimiento labial puede verse afectado por el audio de los fotogramas circundantes, por lo que el modelo agrupa varios fotogramas de audio circundantes como entrada para proporcionar más información temporal. Las incrustaciones de audio se integran en la U-Net mediante una capa de atención cruzada.

Para resolver el problema de que SyncNet necesita una entrada de espacio de píxeles, el modelo primero realiza una predicción en el espacio de ruido y luego obtiene el espacio latente limpio estimado mediante un método de un solo paso. Los estudios han demostrado que entrenar SyncNet en el espacio de píxeles es más efectivo que en el espacio latente, posiblemente debido a la pérdida de información del área labial durante el proceso de codificación VAE.

El proceso de entrenamiento se divide en dos etapas: en la primera etapa, la U-Net aprende las características visuales sin decodificación de espacio de píxeles ni adición de pérdida de SyncNet. En la segunda etapa, se agrega la pérdida de SyncNet utilizando un método de supervisión de espacio de píxeles decodificado, y se utiliza la pérdida LPIPS para mejorar la calidad visual de la imagen. Para garantizar que el modelo aprenda correctamente la información temporal, el ruido de entrada también debe tener consistencia temporal, y el modelo adopta un modelo de ruido mixto. Además, se utiliza una transformación afín para la alineación frontal de la cara en la etapa de preprocesamiento de datos.

Tecnología TREPA

TREPA mejora la consistencia temporal mediante la alineación de las representaciones temporales de la secuencia de imágenes generadas y la secuencia de imágenes reales. Este método utiliza el modelo de video autosupervisado a gran escala VideoMAE-v2 para extraer representaciones temporales. A diferencia de los métodos que solo utilizan la pérdida de distancia entre imágenes, las representaciones temporales pueden capturar las correlaciones temporales en la secuencia de imágenes, mejorando así la consistencia temporal general. Los estudios han demostrado que TREPA no solo no perjudica la precisión de la sincronización labial, sino que incluso puede mejorarla.

Problema de convergencia de SyncNet

Los estudios han demostrado que la pérdida de entrenamiento de SyncNet tiende a estancarse alrededor de 0.69 y no puede disminuir más. A través de un extenso análisis experimental, el equipo de investigación descubrió que el tamaño del lote, el número de fotogramas de entrada y los métodos de preprocesamiento de datos tienen un impacto significativo en la convergencia de SyncNet. La arquitectura del modelo también afecta la convergencia, pero en menor medida.

Los resultados experimentales muestran que LatentSync supera a otros métodos de sincronización labial de vanguardia en varios indicadores. En particular, en términos de precisión de sincronización labial, esto se debe a su SyncNet optimizado y capa de atención cruzada de audio, que pueden capturar mejor la relación entre el audio y los movimientos labiales. Además, gracias a la tecnología TREPA, la consistencia temporal de LatentSync también ha mejorado significativamente.

Dirección del proyecto: https://github.com/bytedance/LatentSync

Diario de IA: La versión actualizada de Yuanbao de Tencent permite buscar imágenes y videos con una sola frase; WeChat Pay MCP se lanza; Google presenta Veo 3 en todo el mundo

¡Bienvenido al programa 【Diario de IA】! Aquí está su guía para explorar el mundo de la inteligencia artificial cada día. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores para ayudarle a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA. Productos de IA recientes, haga clic para obtener más información: https://top.aibase.com/1. Yuanbao de Tencent mejora nuevamente: Una sola frase para buscar, imágenes y videos aparecerán inmediatamente, permitiendo un acceso más intuitivo a la información. La función actualizada de Yuanbao de Tencent hace que el acceso a la información sea más intuitivo y eficiente. Solo necesita hacer una pregunta con una frase para obtener información textual y visual.

Google presenta globalmente su nuevo modelo de generación de videos Veo 3

Google anunció oficialmente la puesta en marcha a nivel mundial de su último modelo de generación de videos Veo3. Esta noticia ha generado mucha expectativa entre los usuarios, y ahora Veo3 está disponible para los usuarios de Gemini en más de 159 países, ofreciendo una experiencia completamente nueva para crear videos. Las características del modelo de generación de videos Veo3 permiten a los usuarios generar videos de hasta ocho segundos a partir de simples instrucciones de texto. Según la descripción de Google, esta tecnología está diseñada especialmente para usuarios creativos, especialmente para los usuarios de redes sociales que cada vez demandan más contenido en forma de videos cortos.

Advertencia de Hitachi Energy: las fluctuaciones en la demanda eléctrica de los centros de inteligencia artificial podrían amenazar la estabilidad del suministro eléctrico mundial

Recientemente, el consejero delegado de Hitachi Energy, empresa fabricante líder de transformadores del mundo, Andreas Schierenbeck, señaló durante una entrevista con Financial Times que el aumento repentino de la demanda eléctrica por parte de grandes empresas tecnológicas al entrenar modelos de inteligencia artificial requiere que los gobiernos tomen medidas para limitar estas fluctuaciones y garantizar la estabilidad del suministro eléctrico. Nota: La imagen proviene de una fuente de licencia de Midjourney. Schierenbeck indicó que las fluctuaciones en la demanda eléctrica de los centros de datos de inteligencia artificial son extremadamente intensas,

Meta presenta un asistente de chat activo que hace que la IA vaya un paso adelante en la conversación

Recientemente, Meta está probando un nuevo tipo de asistente de chat que enviará mensajes activamente a los usuarios, en lugar de solo responder cuando el usuario inicia la conversación. Imagina que estás charlando con un amigo en Facebook Messenger o WhatsApp, y de repente, un asistente de chat de IA llamado "El maestro del magia cinematográfica" te envía un mensaje: ¡Espero que tengas un buen día! Me pregunto si has tenido alguna noticia recientemente.

Tencent Yuanbao se actualiza: una sola frase de búsqueda, imágenes y videos se presentan inmediatamente, la obtención de información es más intuitiva

El asistente inteligente Yuanbao anunció hoy una importante actualización en su función de búsqueda principal, lanzando una nueva característica llamada "con una sola frase puedes buscar más". Ahora, los usuarios solo necesitan hacer una pregunta sencilla y Yuanbao podrá coincidir inteligentemente y mostrar contenido de imágenes y canales de videos, haciendo que la obtención de información sea más rica e intuitiva que nunca. En el pasado, Yuanbao ya podía manejar fácilmente consultas sobre el clima, cotizaciones de acciones, búsquedas de ubicaciones y otras necesidades cotidianas. Esta actualización llevará la capacidad de búsqueda inteligente de Yuanbao a un nuevo nivel. Ya sea que desees aprender una nueva habilidad o resolver pequeños problemas de la vida diaria, Yuanbao podrá integrar texto

Cluely duplica sus ingresos anuales en una semana, alcanzando los 7 millones de dólares

La startup emergente Cluely, en pleno auge en Silicon Valley, anunció recientemente que sus ingresos anuales recurrentes (ARR) subieron rápidamente a unos 7 millones de dólares después del lanzamiento de su nuevo producto empresarial. Esta velocidad de crecimiento ha generado entusiasmo en el fundador Roy Lee, quien le dijo a TechCrunch: "Cada persona que tiene una reunión o entrevista está probando este producto." Cluely se dedica a utilizar la inteligencia artificial para analizar conversaciones en línea, proporcionando en tiempo real transcripciones de reuniones, información de fondo y sugerencias de preguntas, toda la información aparece silenciosamente en la pantalla del usuario.

JD Logistics presenta su camioneta ligera autónoma propia, JD Logistics VAN, con nivel de automatización L4 en carreteras públicas

En la reciente XVII Exposición Internacional de Tecnología y Equipo de Transporte, JD Logistics presentó por primera vez su producto de camioneta ligera autónoma desarrollado internamente: JD Logistics VAN. Esta camioneta ligera autónoma tiene un espacio de carga de 24 metros cúbicos, lo que la convierte en la camioneta ligera autónoma con mayor capacidad de carga en la industria logística actual, y podría reemplazar a los tradicionales camiones de 4.2 metros en环节 como el transporte de mercancías y el traslado entre estaciones. Según la información proporcionada, JD Logistics VAN tiene una autonomía de hasta 400 kilómetros cuando está completamente cargada y cuenta con la capacidad de automatización de nivel L4 en carreteras públicas. Esto significa que puede funcionar de manera autónoma.

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

ByteDance lanza LatentSync, un nuevo modelo de IA de código abierto para un control preciso de la sincronización de labios

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas