En julio de 2025, Bilibili (B站) anunció que su modelo de generación de videos animados de código abierto AniSora recibió una importante actualización y lanzó oficialmente AniSora V3. Como parte del proyecto Index-AniSora, la versión V3 mejoró significativamente la calidad de generación, la fluidez de las acciones y la diversidad de estilos en comparación con versiones anteriores, brindando herramientas más poderosas para creadores de contenido animado, cómics y VTuber. AIbase analiza en profundidad los avances técnicos, las aplicaciones y el impacto en la industria de AniSora V3.
Mejoras técnicas: mayor calidad y control preciso
AniSora V3 se basa en los modelos previamente abiertos por Bilibili, CogVideoX-5B y Wan2.1-14B, combinados con un marco de aprendizaje reforzado con retroalimentación humana (RLHF), lo que mejoró significativamente la calidad visual y la coherencia de las acciones en los videos generados. Soporta la generación de clips de video animado en varios estilos con solo un clic, incluyendo fragmentos de series, animaciones nacionales, adaptaciones de cómics y contenido de VTuber, entre otros.
Las principales actualizaciones incluyen:
- Módulo de máscara espaciotemporal (Spatiotemporal Mask Module) optimizado: La versión V3 mejora la capacidad de control espaciotemporal, soportando tareas más complejas de animación, como el control detallado de expresiones faciales de personajes, movimientos dinámicos de cámaras y generación guiada por imágenes locales. Por ejemplo, la instrucción "cinco chicas bailan mientras la cámara se acerca, levantan la mano izquierda hasta la cabeza y luego la bajan hasta las rodillas" genera una animación de baile fluida, con la cámara y las acciones sincronizadas naturalmente.
- Extensión del conjunto de datos: V3 sigue entrenándose con más de 10 millones de fragmentos de videos animados de alta calidad (extraídos de 1 millón de videos originales), y se ha añadido una nueva línea de limpieza de datos para garantizar la coherencia del estilo y la riqueza de detalles en el contenido generado.
- Optimización del hardware: V3 incluye soporte nativo para la NPU Ascend910B de Huawei, entrenada completamente con chips nacionales, logrando un aumento del 20% en la velocidad de inferencia, y generando un video de alta definición de 4 segundos en solo 2 a 3 minutos.
- Aprendizaje multitarea: V3 refuerza su capacidad para manejar múltiples tareas, permitiendo desde generar videos a partir de una sola imagen, interpolación de fotogramas clave hasta sincronización de labios, especialmente útil para adaptaciones de cómics y contenido de VTuber.
En las pruebas más recientes, AniSora V3 alcanzó niveles líderes en la industria en términos de coherencia de personajes y fluidez de acciones en VBench y pruebas subjetivas doble ciego (SOTA), destacando especialmente en acciones complejas (como movimientos exagerados que violan las leyes físicas en anime).
Ecología de código abierto: desarrollo impulsado por la comunidad
El código completo para el entrenamiento y la inferencia de AniSora V3 se actualizó en GitHub el 2 de julio de 2025, y los desarrolladores pueden acceder a los pesos del modelo y al conjunto de datos de evaluación de 948 videos animados a través de Hugging Face. Bilibili destacó que AniSora es un "regalo de código abierto para el mundo del anime", fomentando la colaboración comunitaria para optimizar el modelo. Los usuarios deben completar un formulario de solicitud y enviarlo al correo electrónico designado (por ejemplo, yangsiqian@bilibili.com) para obtener el acceso a los pesos de la versión V2.0 y al conjunto de datos completo.
V3 también introdujo el primer marco de RLHF específico para la generación de videos animados, ajustando el modelo mediante herramientas como AnimeReward y GAPO para asegurar que la salida sea más conforme a los gustos humanos y a las demandas del estilo anime. Los desarrolladores de la comunidad ya han comenzado a crear complementos personalizados basados en V3, como mejorar el efecto de generación de estilos específicos de anime (por ejemplo, el estilo de Ghibli).
Aplicaciones: de la creatividad al comercio
AniSora V3 admite diversos estilos de anime, incluyendo anime japonés, animaciones originales chinas, adaptaciones de cómics, contenido de VTuber y animaciones satíricas (videos de "gusanos"), cubriendo el 90% de las aplicaciones de videos animados. Las aplicaciones específicas incluyen:
- De imagen única a video: El usuario carga una imagen de anime de alta calidad, junto con una descripción textual (por ejemplo, "el personaje saluda mientras está en un automóvil en movimiento, el pelo se mueve con el viento"), y se genera un video dinámico manteniendo la coherencia de los detalles y el estilo del personaje.
- Adaptación de cómics: Generar animaciones con sincronización de labios y acciones a partir de cuadros de cómic, ideal para producir rápidamente trailers o cortos animados.
- VTuber y juegos: Soporta la generación en tiempo real de animaciones de personajes, ayudando a creadores independientes y desarrolladores de juegos a probar rápidamente las acciones de los personajes.
- Salida de alta resolución: Los videos generados admiten hasta 1080p, asegurando una presentación profesional en redes sociales y plataformas de transmisión.
Según las pruebas de AIbase, V3 redujo en aproximadamente un 15% los problemas de artefactos en escenas complejas (como interacciones de múltiples personajes y fondos dinámicos), reduciendo el tiempo de generación a un promedio de 2,5 minutos (para videos de 4 segundos).
La publicación de AniSora V3 reduce aún más la barrera para la creación de anime, permitiendo a creadores independientes y equipos pequeños realizar producción de animación de alta calidad a bajo costo. En comparación con modelos generales de video como Sora de OpenAI o Kling, AniSora V3 se centra en el ámbito del anime, llenando un vacío en el mercado. A diferencia de EX-4D de ByteDance, AniSora V3 se enfoca en estilos 2D/2.5D de anime, en lugar de generar múltiples perspectivas 4D, mostrando una trayectoria tecnológica diferente.
Proyecto: https://t.co/I3HPKPvsBV