ByteDance lanza Vidi, un modelo multimodal que revoluciona la comprensión y edición de videos extensos

AIbase基地

Publicado elNoticias de IA · 12 minutos de lectura · Apr 23, 2025

ByteDance anuncia el lanzamiento de su nuevo modelo multimodal Vidi, enfocado en la comprensión y edición de videos. Su capacidad principal inicial es la función de búsqueda de tiempo precisa. Según AIbase, Vidi puede procesar entradas visuales, de audio y de texto, admite el análisis de videos extremadamente largos de hasta una hora y supera en rendimiento a modelos principales como GPT-4o y Gemini en tareas de búsqueda de tiempo. Esta tecnología innovadora ha generado un gran debate en la comunidad de IA, y los detalles se han publicado a través de los canales oficiales de ByteDance y GitHub.

Funciones principales: Búsqueda de tiempo precisa y colaboración multimodal

Vidi, con su potente capacidad de búsqueda de tiempo y procesamiento multimodal, ofrece una nueva solución para la comprensión y edición de videos. AIbase ha resumido sus funciones principales:

Búsqueda de tiempo precisa: Vidi puede localizar con precisión fragmentos específicos de un video según indicaciones de texto o entradas multimodales (por ejemplo, "encontrar el fragmento de 30 segundos donde el personaje baila"), con una resolución de tiempo a nivel de segundos, lo que mejora significativamente la eficiencia de la búsqueda de contenido.

Compatibilidad con videos largos: Admite el procesamiento de videos de hasta una hora de duración, superando los límites de memoria y cálculo de los modelos tradicionales en la comprensión de videos de secuencias largas, ideal para analizar películas, transmisiones en vivo o grabaciones de conferencias.

Procesamiento de entradas multimodales: Integra visión (secuencias de fotogramas), audio (voz, sonidos de fondo) y texto (subtítulos, descripciones) para lograr una comprensión semántica multi-modal, como localizar momentos destacados de un video según la emoción del audio.

Capacidad de edición eficiente: Permite la edición, reorganización y anotación de fragmentos de video basados en la búsqueda de tiempo, simplificando el proceso de creación y postproducción de contenido.

AIbase ha observado que las pruebas de la comunidad muestran que Vidi, al procesar el conjunto de datos Youku-mPLUG (10 millones de pares video-lenguaje), puede localizar rápidamente fragmentos de escenas complejas, superando el rendimiento de GPT-4o en la tarea de búsqueda de tiempo de ActivityNet (aumento de la precisión de aproximadamente el 10%).

Arquitectura tecnológica: Codificación de tiempo innovadora y fusión multimodal

Vidi se basa en el framework VeOmni de ByteDance, combinando un modelo de lenguaje grande específico para video (Vid-LLM) y una arquitectura de transformador mejorada en el tiempo. Según el análisis de AIbase, sus tecnologías principales incluyen:

Transformador mejorado en el tiempo: Mediante la incrustación temporal (Temporal Embedding) y el mecanismo de atención jerárquica, optimiza el modelado de las relaciones espacio-temporales de videos de secuencias largas, garantizando una búsqueda de tiempo de alta precisión.

Codificador multimodal: Emplea la representación visual unificada de Chat-UniVi, fusionando fotogramas de video, formas de onda de audio e incrustaciones de texto, lo que permite la alineación semántica multimodal y reduce la pérdida de información.

Optimización de inferencia eficiente: Utiliza el sistema de entrenamiento distribuido ByteScale de ByteDance, junto con la cuantificación de 4 bits y el procesamiento de división dinámica, para reducir significativamente el coste computacional del procesamiento de videos extremadamente largos.

Impulsado por conjuntos de datos: Los datos de entrenamiento incluyen Youku-mPLUG (10 millones de pares video-lenguaje) y WebVid-10M, que abarcan múltiples idiomas y escenarios diversos, mejorando la capacidad de generalización del modelo.

AIbase considera que la capacidad de búsqueda de tiempo de Vidi se debe a su innovador mecanismo PHD-CSWA (Chunk-wise Sliding Window Attention), que está en línea con la tecnología de escalado de longitud de preentrenamiento eficiente lanzada anteriormente por ByteDance, especialmente adecuada para tareas de secuencias largas.

Escenarios de aplicación: Desde la creación de contenido hasta el análisis inteligente

La capacidad multimodal de Vidi y la compatibilidad con videos extremadamente largos le abren un amplio abanico de escenarios de aplicación. AIbase resume sus usos principales:

Creación y edición de contenido: Ofrece a los creadores de video herramientas de localización precisa de fragmentos y edición automática, simplificando la producción de videos cortos, Vlogs o trailers de películas, como la extracción rápida de momentos destacados de una transmisión en vivo.

Análisis inteligente de video: Permite a las empresas analizar grabaciones de conferencias largas o videos de vigilancia, anotando automáticamente eventos clave (como "el fragmento donde se discute el presupuesto"), mejorando la eficiencia de la búsqueda de información.

Educación y formación: Analiza videos educativos, localiza puntos de conocimiento específicos o fragmentos interactivos, generando fragmentos de aprendizaje personalizados, ideales para plataformas de educación online.

Entretenimiento y recomendaciones: Optimiza los sistemas de recomendación de video de plataformas como TikTok, mejorando la precisión de la coincidencia de contenido mediante el análisis semántico y temporal, mejorando la experiencia del usuario.

Los comentarios de la comunidad muestran que Vidi tiene un rendimiento excepcional en el procesamiento de videos largos en chino (como programas de variedades), y su compatibilidad con múltiples idiomas (8 idiomas) amplía aún más su potencial de aplicación global. AIbase observa que Vidi se integra perfectamente con el ecosistema de modelos Doubao de ByteDance, proporcionando una base sólida para la implementación comercial.

Guía de inicio: Soporte de código abierto, amigable para desarrolladores

AIbase ha sabido que el código y los modelos preentrenados de Vidi se publicarán en GitHub de código abierto (se espera en github.com/ByteDance-Seed/Vidi), compatible con PyTorch y el framework VeOmni. Los desarrolladores pueden empezar rápidamente siguiendo estos pasos:

Clonar el repositorio de Vidi, instalar Python 3.9+ y las dependencias de NVIDIA CUDA;

Descargar el conjunto de datos Youku-mPLUG o WebVid-10M, configurar la tarea de búsqueda de tiempo;

Ejecutar la inferencia utilizando el script vidi.yaml proporcionado, introduciendo indicaciones multimodales (como "localizar la parte del video donde el orador menciona la IA");

Exportar el fragmento localizado o el resultado de la edición, compatible con formatos MP4 o JSON.

La imagen de Docker y la integración de Hugging Face proporcionadas por la comunidad simplifican el proceso de implementación. Se recomienda hardware como NVIDIA A100 (40 GB) o RTX3090 (24 GB). AIbase recomienda a los desarrolladores que prueben primero la función de búsqueda de tiempo de Vidi en los conjuntos de datos ActivityNet o EgoSchema para verificar sus ventajas de rendimiento.

Comparación de rendimiento: Superando a GPT-4o y Gemini

El rendimiento de Vidi en tareas de búsqueda de tiempo es particularmente destacado. AIbase ha recopilado una comparación con los modelos principales:

Precisión de la búsqueda de tiempo: En el conjunto de datos ActivityNet, la precisión de Vidi es aproximadamente un 10% superior a la de GPT-4o y un 12% superior a la de Gemini 1.5 Pro, especialmente estable en videos largos (>30 minutos).

Velocidad de procesamiento: Vidi procesa un video de una hora en un promedio de 5 a 7 minutos (128 GPU), mejor que los 8 a 10 minutos de GPT-4o, gracias al mecanismo de atención por bloques.

Comprensión multimodal: Vidi en la tarea de preguntas y respuestas de video de Youku-mPLUG, obtiene una puntuación compuesta (combinando visión, audio y texto) aproximadamente un 5% superior a Gemini 1.5 Pro y comparable a GPT-4o.

El análisis de la comunidad considera que la ventaja de rendimiento de Vidi se debe a su optimización específica para el campo del video, en lugar de un diseño multimodal general, especialmente en la percepción del tiempo y el procesamiento de secuencias largas. AIbase predice que la publicación de código abierto de Vidi impulsará aún más la competencia en el campo de Vid-LLM.

Dirección del proyecto: https://bytedance.github.io/vidi-website/

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El equipo de voz de Doubao presenta una solución automatizada para la producción de audiolibros con múltiples personajes, logrando una producción end-to-end sin intervención humana, desde el texto de una novela hasta el producto final de radio. No se requiere doblaje, edición ni intervención humana, reduciendo los costos y mejorando la eficiencia, con resultados cercanos al nivel profesional, alcanzando una tasa de precisión del 98% en la identificación de personajes.

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Liao Qian, ex responsable de productos de inteligencia artificial de CapCut de Bytedance, fundó la empresa 'Contexto extremo', dedicada al desarrollo de Agentes multimodales para marketing. Gracias a su amplia experiencia en el campo de AIGC, logró una ronda de financiación inicial de varios millones de dólares. Liao Qian trabajó previamente en Tencent y Bytedance, y desde 2019 se ha dedicado a la tecnología AIGC, atrayendo la atención del sector.

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

Adobe lanzó el modelo de generación de imágenes de IA de nivel profesional Firefly Image5, logrando un cambio cualitativo de "suficiente" a nivel profesional. Las nuevas funciones incluyen salida nativa de 4 millones de píxeles, edición de sugerencias por capas, modelos de estilo artístico personalizados y generación de música de voz de IA, cerrando el ciclo de creación de IA para imágenes, videos y audio, redefiniendo así el flujo de trabajo creativo.

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA lanza el modelo de comprensión multimodal OmniVinci, obteniendo 19.05 puntos más que los modelos principales en varias pruebas estándar. Este modelo utiliza solo 0.2 billones de tokens de entrenamiento, teniendo una eficiencia de datos seis veces mayor que la de sus competidores. Su objetivo es lograr una comprensión unificada de la visión, el audio y el texto, impulsando el desarrollo de la capacidad cognitiva multimodal de las máquinas.

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

El modelo de generación de video Hailuo2.3 de la empresa MiniMax se lanza en la plataforma Replicate, admitiendo entradas de texto e imágenes para generar videos de alta calidad. Este modelo mejora la eficiencia del entrenamiento mediante una arquitectura NCR, con capacidad para simulaciones físicas realistas y captura de movimientos fluidos, impulsando la innovación en efectos visuales dinámicos en campos como el cine y los anuncios publicitarios.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

ByteDance lanza Vidi, un modelo multimodal que revoluciona la comprensión y edición de videos extensos

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

El modelo de voz SoulX-Podcast de Soul se lanza con un impacto: generación de podcasts sin interrupciones de 90 minutos, la revolución de la voz AI se actualiza nuevamente

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

Noticias de IA relacionadas recomendadas

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Revolución de audiolibros con IA ¡Doubao lanza un sistema de doblaje automático para múltiples personajes! Tasa de precisión del 98% en la identificación de personajes, rivalizando con las producciones profesionales de radio

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

El modelo de voz SoulX-Podcast de Soul se lanza con un impacto: generación de podcasts sin interrupciones de 90 minutos, la revolución de la voz AI se actualiza nuevamente

Adobe Firefly Image 5: Gran actualización: generación nativa de 4 millones de píxeles, pista de audio de IA + modelos personalizados, los creadores entran en una nueva era de creación artística con IA integral

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

​NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

El modelo de generación de video Hailuo2.3 de AI se lanza en la plataforma Replicate, ofreciendo simulaciones físicas realistas y efectos cinematográficos

GEO Services

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6

NVIDIA presenta el modelo de comprensión multimodal OmniVinci, con datos de entrenamiento únicamente 1/6