El 29 de junio de 2025, el equipo internacional de inteligencia artificial de Alibaba lanzó oficialmente el nuevo modelo multimodal **Ovis-U1**, marcando un nuevo gran avance en el campo de la inteligencia artificial multimodal. Como la última obra maestra de la serie Ovis, Ovis-U1 integra funciones de comprensión multimodal, generación de imágenes y edición de imágenes, mostrando una poderosa capacidad de procesamiento transmodal, ofreciendo nuevas posibilidades a desarrolladores, investigadores y aplicaciones industriales. A continuación, se presenta un informe detallado sobre Ovis-U1 por parte de AIbase.

image.png

Ovis-U1: Marco unificado multimodal de tres en uno

Ovis-U1 es un modelo de 3 mil millones de parámetros construido por el equipo internacional de inteligencia artificial de Alibaba basado en la arquitectura de la serie Ovis, que por primera vez logró la unificación de comprensión multimodal, generación de imágenes a partir de texto e edición de imágenes. Según información de AIbase, este modelo utiliza un diseño innovador de arquitectura, alineando eficientemente las incrustaciones visuales y textuales mediante tres componentes principales: el tokenizador visual (Visual Tokenizer), la tabla de incrustaciones visuales y el modelo de lenguaje grande (LLM). Este método estructurado de alineación supera las limitaciones de los modelos multimodales tradicionales en la conversión entre modalidades, mejorando significativamente el rendimiento del modelo en escenarios complejos.

Ovis-U1 puede procesar diversas formas de entrada, como texto e imágenes, y muestra un excelente rendimiento en tareas como razonamiento matemático, reconocimiento de objetos, extracción de texto y comprensión de videos. Por ejemplo, no solo puede identificar con precisión objetos o texto manuscrito en imágenes, sino que también puede generar imágenes de alta calidad según las instrucciones del usuario o editar imágenes existentes con detalle. Esta capacidad "triple en uno" le da un gran potencial de aplicación en campos como la educación, el comercio electrónico, la medicina y la conducción autónoma.

image.png

Puntos técnicos destacados: Entrenamiento eficiente y compartir código abierto

El desarrollo de Ovis-U1 se basa en estrategias avanzadas de entrenamiento y conjuntos de datos diversos. Según la información oficial, el modelo se construyó utilizando tecnologías como Python3.10, Torch2.4.0 y Transformers4.51.3. Durante el proceso de entrenamiento se utilizó DeepSpeed0.15.4 para optimizarlo, asegurando eficiencia y estabilidad. Además, Ovis-U1 continúa con la tradición de código abierto de la serie Ovis, utilizando la licencia Apache2.0, y el código, los pesos del modelo y los datos de entrenamiento ya están disponibles públicamente en Hugging Face y GitHub. Los desarrolladores pueden reproducir y desplegar fácilmente el modelo con una configuración sencilla del entorno.

AIbase observó que durante el entrenamiento de Ovis-U1 se introdujo un algoritmo de verificación de conformidad para garantizar que las salidas del modelo cumplan con requisitos éticos y legales. Este enfoque transparente no solo demuestra la contribución de Alibaba al comunidad de código abierto, sino que también proporciona a los desarrolladores globales una herramienta conveniente para explorar la inteligencia artificial multimodal.

La capacidad multimodal de Ovis-U1 le permite destacar en aplicaciones prácticas. Por ejemplo, en el sector del comercio electrónico, Ovis-U1 puede analizar imágenes de productos para generar descripciones en múltiples idiomas o editar imágenes de exhibición de productos según las necesidades del usuario, mejorando así la experiencia del consumidor. En escenarios educativos, puede identificar fórmulas matemáticas escritas a mano y proporcionar explicaciones detalladas, ayudando a los estudiantes en su aprendizaje. Además, Ovis-U1 admite la generación de recetas y el análisis de contenido de videos, ofreciendo soluciones innovadoras para el hogar inteligente y la creación de contenido.

AIbase considera que el lanzamiento de Ovis-U1 no solo refuerza la posición líder de Alibaba en el campo de la inteligencia artificial multimodal, sino que también impulsa la difusión y el progreso de la tecnología de inteligencia artificial global mediante un modelo de código abierto. En el futuro, Ovis-U1 tiene el potencial de implementarse en más escenarios industriales, convirtiéndose en un puente inteligente que conecta la visión, el lenguaje y la toma de decisiones.

Desde el lanzamiento de Ovis-U1, ha habido muchas discusiones en las redes sociales. Muchos desarrolladores han elogiado la versatilidad del modelo y su característica de código abierto, considerándolo una solución de inteligencia artificial de bajo umbral para empresas pequeñas y medianas y desarrolladores individuales. AIbase espera que, con la amplia aplicación de Ovis-U1, surjan más casos innovadores en la comunidad.

Proyecto: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)