Lanzamiento impactante de AliOvis-U1: IA multimodal trifuncional, apertura de código para desarrolladores de todo el mundo

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Jun 30, 2025

El 29 de junio de 2025, el equipo internacional de inteligencia artificial de Alibaba lanzó oficialmente el nuevo modelo multimodal **Ovis-U1**, marcando un nuevo gran avance en el campo de la inteligencia artificial multimodal. Como la última obra maestra de la serie Ovis, Ovis-U1 integra funciones de comprensión multimodal, generación de imágenes y edición de imágenes, mostrando una poderosa capacidad de procesamiento transmodal, ofreciendo nuevas posibilidades a desarrolladores, investigadores y aplicaciones industriales. A continuación, se presenta un informe detallado sobre Ovis-U1 por parte de AIbase.

Ovis-U1: Marco unificado multimodal de tres en uno

Ovis-U1 es un modelo de 3 mil millones de parámetros construido por el equipo internacional de inteligencia artificial de Alibaba basado en la arquitectura de la serie Ovis, que por primera vez logró la unificación de comprensión multimodal, generación de imágenes a partir de texto e edición de imágenes. Según información de AIbase, este modelo utiliza un diseño innovador de arquitectura, alineando eficientemente las incrustaciones visuales y textuales mediante tres componentes principales: el tokenizador visual (Visual Tokenizer), la tabla de incrustaciones visuales y el modelo de lenguaje grande (LLM). Este método estructurado de alineación supera las limitaciones de los modelos multimodales tradicionales en la conversión entre modalidades, mejorando significativamente el rendimiento del modelo en escenarios complejos.

Ovis-U1 puede procesar diversas formas de entrada, como texto e imágenes, y muestra un excelente rendimiento en tareas como razonamiento matemático, reconocimiento de objetos, extracción de texto y comprensión de videos. Por ejemplo, no solo puede identificar con precisión objetos o texto manuscrito en imágenes, sino que también puede generar imágenes de alta calidad según las instrucciones del usuario o editar imágenes existentes con detalle. Esta capacidad "triple en uno" le da un gran potencial de aplicación en campos como la educación, el comercio electrónico, la medicina y la conducción autónoma.

Puntos técnicos destacados: Entrenamiento eficiente y compartir código abierto

El desarrollo de Ovis-U1 se basa en estrategias avanzadas de entrenamiento y conjuntos de datos diversos. Según la información oficial, el modelo se construyó utilizando tecnologías como Python3.10, Torch2.4.0 y Transformers4.51.3. Durante el proceso de entrenamiento se utilizó DeepSpeed0.15.4 para optimizarlo, asegurando eficiencia y estabilidad. Además, Ovis-U1 continúa con la tradición de código abierto de la serie Ovis, utilizando la licencia Apache2.0, y el código, los pesos del modelo y los datos de entrenamiento ya están disponibles públicamente en Hugging Face y GitHub. Los desarrolladores pueden reproducir y desplegar fácilmente el modelo con una configuración sencilla del entorno.

AIbase observó que durante el entrenamiento de Ovis-U1 se introdujo un algoritmo de verificación de conformidad para garantizar que las salidas del modelo cumplan con requisitos éticos y legales. Este enfoque transparente no solo demuestra la contribución de Alibaba al comunidad de código abierto, sino que también proporciona a los desarrolladores globales una herramienta conveniente para explorar la inteligencia artificial multimodal.

La capacidad multimodal de Ovis-U1 le permite destacar en aplicaciones prácticas. Por ejemplo, en el sector del comercio electrónico, Ovis-U1 puede analizar imágenes de productos para generar descripciones en múltiples idiomas o editar imágenes de exhibición de productos según las necesidades del usuario, mejorando así la experiencia del consumidor. En escenarios educativos, puede identificar fórmulas matemáticas escritas a mano y proporcionar explicaciones detalladas, ayudando a los estudiantes en su aprendizaje. Además, Ovis-U1 admite la generación de recetas y el análisis de contenido de videos, ofreciendo soluciones innovadoras para el hogar inteligente y la creación de contenido.

AIbase considera que el lanzamiento de Ovis-U1 no solo refuerza la posición líder de Alibaba en el campo de la inteligencia artificial multimodal, sino que también impulsa la difusión y el progreso de la tecnología de inteligencia artificial global mediante un modelo de código abierto. En el futuro, Ovis-U1 tiene el potencial de implementarse en más escenarios industriales, convirtiéndose en un puente inteligente que conecta la visión, el lenguaje y la toma de decisiones.

Desde el lanzamiento de Ovis-U1, ha habido muchas discusiones en las redes sociales. Muchos desarrolladores han elogiado la versatilidad del modelo y su característica de código abierto, considerándolo una solución de inteligencia artificial de bajo umbral para empresas pequeñas y medianas y desarrolladores individuales. AIbase espera que, con la amplia aplicación de Ovis-U1, surjan más casos innovadores en la comunidad.

Proyecto: (https://huggingface.co/AIDC-AI/Ovis-U1-3B)

Zuckerberg reorganiza el equipo de Meta AI, se revela una nueva estructura de 3400 personas

Meta reorganiza su arquitectura de IA y establece un laboratorio de inteligencia superiores, integrando a 3400 empleados, liderado por Alexandr Wang como jefe de IA. La nueva estructura se divide en cuatro equipos: investigación básica en AGI, desarrollo de productos de IA (incluyendo el asistente de Meta AI), el laboratorio de IA básica liderado por Yann LeCun, y un grupo enfocado en el desarrollo de Llama5. Meta contrata a personal de empresas como OpenAI y Apple con altos salarios, lo que ha generado desconfianza en el equipo original hacia los nuevos talentos con altos salarios. Recientemente, dos responsables de IA de Apple se han unido.

Li Auto obtiene la primera certificación de seguridad de inteligencia artificial generativa para vehículos

Li Auto obtuvo en el Foro Automotriz Chino 2025 las primeras dos certificaciones nacionales de seguridad de IA generativa para vehículos, convirtiéndose en la primera empresa automotriz en pasar las normas nacionales GB/T45654 y GB45438-2025. Esta certificación fue otorgada conjuntamente por el Comité de Seguridad Cibernética Automotriz de la Industria de la Información (CCIA) y la plataforma de identificación de contenido generado por IA. Cubre los campos de seguridad del contenido e identificación. Este logro marca que Li Auto se encuentra en una posición líder en términos de seguridad de tecnología AIGC en vehículos, estableciendo un modelo para el desarrollo seguro de automóviles inteligentes, al mismo tiempo que aumenta la confianza de los consumidores en

Diario A: La plataforma Kimi se lanza con Kimi Playground; OpenAI presenta de manera importante el ChatGPT Agent; Suno presenta la función de reemplazo de voz humana

【Resumen del Diario de IA】 Hoy en el ámbito de la IA se produjeron varios avances: 1) La plataforma de apertura de Kimi de Moon's Dark se lanzó con Playground, logrando la mejora de la IA desde un asistente de conversación hasta un asistente inteligente; 2) OpenAI lanzó el ChatGPT Agent capaz de ejecutar tareas por sí mismo; 3) Suno v4.5+ presentó funciones innovadoras como el reemplazo de voz humana; 4) Google abrió la API del modelo de generación de videos Veo3 pero con un costo elevado; 5) Se presentó el primer modelo de conversión de video en tiempo real, MirageLSD; 6) VSC

La chip Dojo 2 de Tesla está a punto de entrar en producción en masa, su rendimiento se acerca al de NVIDIA, y Musk bromea que cambiará las reglas del juego

Tesla lanzó la nueva chip Dojo 2, cuyo rendimiento es 10 veces superior al de la primera generación y su capacidad computacional se acerca al B200 de NVIDIA. Esta chip fue fabricada por TSMC y utiliza tecnología de empaquetamiento avanzada, resolviendo problemas de consumo de energía. La Dojo 2 ayudará al sistema de conducción autónoma FSD de Tesla, procesando 16 mil millones de marcos de video diarios, logrando así el control tecnológico interno. Musk reveló que el año próximo lanzarán una Dojo 3 más potente y bromeó que la Dojo 2 podría ejecutar 'Crysis' a un billón de marcos por segundo. Este avance reducirá la dependencia de Tesla respecto a NVIDIA y podría tener aplicaciones externas.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Lanzamiento impactante de AliOvis-U1: IA multimodal trifuncional, apertura de código para desarrolladores de todo el mundo

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Huang Renxun se reúne profundamente con el fundador de MiniMax Yan Junjie, ¡nuevas oportunidades en la inteligencia artificial están a la vista!

Zuckerberg reorganiza el equipo de Meta AI, se revela una nueva estructura de 3400 personas

Li Auto obtiene la primera certificación de seguridad de inteligencia artificial generativa para vehículos

¡El modo de grabación de ChatGPT está disponible! Con un clic, convierte reuniones y genera planes. ¡La IA impulsa la eficiencia!

Diario A: La plataforma Kimi se lanza con Kimi Playground; OpenAI presenta de manera importante el ChatGPT Agent; Suno presenta la función de reemplazo de voz humana

¡LTX-Video 13B lanzado! Generación de videos en alta definición a 30 veces la velocidad, la inteligencia artificial de código abierto rompe los límites de la creación!

Perplexity entra en India: una nueva estrategia para competir con OpenAI en el camino del IA

Tencent Yuanbao se integra con QQ Music: admite búsqueda difusa de canciones, música de escena y reproducción al deslizar

Apple se inclina ante NVIDIA ¡La estructura MLX admite CUDA! La competencia en el campo de la inteligencia artificial se intensifica

La chip Dojo 2 de Tesla está a punto de entrar en producción en masa, su rendimiento se acerca al de NVIDIA, y Musk bromea que cambiará las reglas del juego