ByteDance anuncia el lanzamiento de su nuevo modelo multimodal Vidi, enfocado en la comprensión y edición de videos. Su capacidad principal inicial es la función de búsqueda de tiempo precisa. Según AIbase, Vidi puede procesar entradas visuales, de audio y de texto, admite el análisis de videos extremadamente largos de hasta una hora y supera en rendimiento a modelos principales como GPT-4o y Gemini en tareas de búsqueda de tiempo. Esta tecnología innovadora ha generado un gran debate en la comunidad de IA, y los detalles se han publicado a través de los canales oficiales de ByteDance y GitHub.

Funciones principales: Búsqueda de tiempo precisa y colaboración multimodal
Vidi, con su potente capacidad de búsqueda de tiempo y procesamiento multimodal, ofrece una nueva solución para la comprensión y edición de videos. AIbase ha resumido sus funciones principales:
Búsqueda de tiempo precisa: Vidi puede localizar con precisión fragmentos específicos de un video según indicaciones de texto o entradas multimodales (por ejemplo, "encontrar el fragmento de 30 segundos donde el personaje baila"), con una resolución de tiempo a nivel de segundos, lo que mejora significativamente la eficiencia de la búsqueda de contenido.
Compatibilidad con videos largos: Admite el procesamiento de videos de hasta una hora de duración, superando los límites de memoria y cálculo de los modelos tradicionales en la comprensión de videos de secuencias largas, ideal para analizar películas, transmisiones en vivo o grabaciones de conferencias.
Procesamiento de entradas multimodales: Integra visión (secuencias de fotogramas), audio (voz, sonidos de fondo) y texto (subtítulos, descripciones) para lograr una comprensión semántica multi-modal, como localizar momentos destacados de un video según la emoción del audio.
Capacidad de edición eficiente: Permite la edición, reorganización y anotación de fragmentos de video basados en la búsqueda de tiempo, simplificando el proceso de creación y postproducción de contenido.
AIbase ha observado que las pruebas de la comunidad muestran que Vidi, al procesar el conjunto de datos Youku-mPLUG (10 millones de pares video-lenguaje), puede localizar rápidamente fragmentos de escenas complejas, superando el rendimiento de GPT-4o en la tarea de búsqueda de tiempo de ActivityNet (aumento de la precisión de aproximadamente el 10%).
Arquitectura tecnológica: Codificación de tiempo innovadora y fusión multimodal
Vidi se basa en el framework VeOmni de ByteDance, combinando un modelo de lenguaje grande específico para video (Vid-LLM) y una arquitectura de transformador mejorada en el tiempo. Según el análisis de AIbase, sus tecnologías principales incluyen:
Transformador mejorado en el tiempo: Mediante la incrustación temporal (Temporal Embedding) y el mecanismo de atención jerárquica, optimiza el modelado de las relaciones espacio-temporales de videos de secuencias largas, garantizando una búsqueda de tiempo de alta precisión.
Codificador multimodal: Emplea la representación visual unificada de Chat-UniVi, fusionando fotogramas de video, formas de onda de audio e incrustaciones de texto, lo que permite la alineación semántica multimodal y reduce la pérdida de información.
Optimización de inferencia eficiente: Utiliza el sistema de entrenamiento distribuido ByteScale de ByteDance, junto con la cuantificación de 4 bits y el procesamiento de división dinámica, para reducir significativamente el coste computacional del procesamiento de videos extremadamente largos.
Impulsado por conjuntos de datos: Los datos de entrenamiento incluyen Youku-mPLUG (10 millones de pares video-lenguaje) y WebVid-10M, que abarcan múltiples idiomas y escenarios diversos, mejorando la capacidad de generalización del modelo.
AIbase considera que la capacidad de búsqueda de tiempo de Vidi se debe a su innovador mecanismo PHD-CSWA (Chunk-wise Sliding Window Attention), que está en línea con la tecnología de escalado de longitud de preentrenamiento eficiente lanzada anteriormente por ByteDance, especialmente adecuada para tareas de secuencias largas.
Escenarios de aplicación: Desde la creación de contenido hasta el análisis inteligente
La capacidad multimodal de Vidi y la compatibilidad con videos extremadamente largos le abren un amplio abanico de escenarios de aplicación. AIbase resume sus usos principales:
Creación y edición de contenido: Ofrece a los creadores de video herramientas de localización precisa de fragmentos y edición automática, simplificando la producción de videos cortos, Vlogs o trailers de películas, como la extracción rápida de momentos destacados de una transmisión en vivo.
Análisis inteligente de video: Permite a las empresas analizar grabaciones de conferencias largas o videos de vigilancia, anotando automáticamente eventos clave (como "el fragmento donde se discute el presupuesto"), mejorando la eficiencia de la búsqueda de información.
Educación y formación: Analiza videos educativos, localiza puntos de conocimiento específicos o fragmentos interactivos, generando fragmentos de aprendizaje personalizados, ideales para plataformas de educación online.
Entretenimiento y recomendaciones: Optimiza los sistemas de recomendación de video de plataformas como TikTok, mejorando la precisión de la coincidencia de contenido mediante el análisis semántico y temporal, mejorando la experiencia del usuario.
Los comentarios de la comunidad muestran que Vidi tiene un rendimiento excepcional en el procesamiento de videos largos en chino (como programas de variedades), y su compatibilidad con múltiples idiomas (8 idiomas) amplía aún más su potencial de aplicación global. AIbase observa que Vidi se integra perfectamente con el ecosistema de modelos Doubao de ByteDance, proporcionando una base sólida para la implementación comercial.
Guía de inicio: Soporte de código abierto, amigable para desarrolladores
AIbase ha sabido que el código y los modelos preentrenados de Vidi se publicarán en GitHub de código abierto (se espera en github.com/ByteDance-Seed/Vidi), compatible con PyTorch y el framework VeOmni. Los desarrolladores pueden empezar rápidamente siguiendo estos pasos:
Clonar el repositorio de Vidi, instalar Python 3.9+ y las dependencias de NVIDIA CUDA;
Descargar el conjunto de datos Youku-mPLUG o WebVid-10M, configurar la tarea de búsqueda de tiempo;
Ejecutar la inferencia utilizando el script vidi.yaml proporcionado, introduciendo indicaciones multimodales (como "localizar la parte del video donde el orador menciona la IA");
Exportar el fragmento localizado o el resultado de la edición, compatible con formatos MP4 o JSON.
La imagen de Docker y la integración de Hugging Face proporcionadas por la comunidad simplifican el proceso de implementación. Se recomienda hardware como NVIDIA A100 (40 GB) o RTX3090 (24 GB). AIbase recomienda a los desarrolladores que prueben primero la función de búsqueda de tiempo de Vidi en los conjuntos de datos ActivityNet o EgoSchema para verificar sus ventajas de rendimiento.
Comparación de rendimiento: Superando a GPT-4o y Gemini
El rendimiento de Vidi en tareas de búsqueda de tiempo es particularmente destacado. AIbase ha recopilado una comparación con los modelos principales:
Precisión de la búsqueda de tiempo: En el conjunto de datos ActivityNet, la precisión de Vidi es aproximadamente un 10% superior a la de GPT-4o y un 12% superior a la de Gemini 1.5 Pro, especialmente estable en videos largos (>30 minutos).
Velocidad de procesamiento: Vidi procesa un video de una hora en un promedio de 5 a 7 minutos (128 GPU), mejor que los 8 a 10 minutos de GPT-4o, gracias al mecanismo de atención por bloques.
Comprensión multimodal: Vidi en la tarea de preguntas y respuestas de video de Youku-mPLUG, obtiene una puntuación compuesta (combinando visión, audio y texto) aproximadamente un 5% superior a Gemini 1.5 Pro y comparable a GPT-4o.
El análisis de la comunidad considera que la ventaja de rendimiento de Vidi se debe a su optimización específica para el campo del video, en lugar de un diseño multimodal general, especialmente en la percepción del tiempo y el procesamiento de secuencias largas. AIbase predice que la publicación de código abierto de Vidi impulsará aún más la competencia en el campo de Vid-LLM.
Dirección del proyecto: https://bytedance.github.io/vidi-website/





