LLaVA-1.5: Sistema de IA multimodal de código abierto de ZJU y Microsoft que rivaliza con GPT-4

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Oct 8, 2023

LLaVA-1.5: Un nuevo competidor de GPT-4V

Investigadores de la Universidad de Zhejiang, Microsoft Research y la Universidad de Columbia han desarrollado conjuntamente un nuevo sistema de IA multimodal, LLaVA-1.5, que ha batido récords en 11 pruebas de referencia. En cuanto a la capacidad de comprensión multimodal, supera a GPT-4V y se posiciona como un competidor directo.

LLaVA-1.5 ha logrado este avance utilizando una arquitectura de sistema sencilla y conjuntos de datos públicos, demostrando que los modelos de código abierto, con un diseño adecuado, también pueden alcanzar una gran potencia. Esto supone una inspiración para el desarrollo de la IA.

El código abierto de LLaVA-1.5 llena un vacío en el campo de la IA multimodal y es considerado por la industria como un nuevo contendiente formidable que se enfrenta directamente a GPT-4.

LLaVA IA multimodal Respuestas a preguntas visuales

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Boletín diario de IA: Alibaba y Tencent brindan soporte completo al protocolo MCP; Modelo de inferencia multimodal Step-R1-V-Mini de Jieyue Xingchen; Modelo de generación de imágenes Miracle F1 de Meitu WHEE

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, centrados en los desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovaciones en aplicaciones de productos de IA. Para obtener más información sobre los nuevos productos de IA, haga clic aquí: https://top.aibase.com/1、 Alibaba ha anunciado soporte completo para el protocolo MCP, seguido de cerca por Tencent. Recientemente, el campo de la inteligencia artificial en China ha experimentado un cambio en los estándares tecnológicos, y el Protocolo ModelContext (MCP) se ha convertido en un estándar clave de IA en China.

Apr 9, 2025

Step-R1-V-Mini: Nuevo modelo de inferencia multimodal de Jieyue Xingchen

El equipo de tecnología Jieyue Xingchen anuncia el lanzamiento oficial de su nuevo modelo de inferencia multimodal, Step-R1-V-Mini. El lanzamiento de este modelo marca un nuevo avance en el campo de la inferencia multimodal colaborativa, inyectando nueva vitalidad en el desarrollo de la IA. Step-R1-V-Mini admite la entrada de texto e imágenes y la salida de texto, posee una buena capacidad de seguimiento de instrucciones y versatilidad, puede percibir imágenes con alta precisión y completar tareas de inferencia complejas.

Apr 9, 2025

¡Explosión! ¡China añade otro as bajo la manga a su IA! ¡El modelo de inferencia multimodal Skywork R1V de Kunlun Wanwei se lanza en código abierto!

Kunlun Wanwei ha lanzado Skywork R1V, un potente modelo de inferencia multimodal de código abierto. Este avance representa un significativo salto adelante en la tecnología de IA china.

Mar 18, 2025

¡Gran avance en la IA de avatares digitales! Hedra lanza Character-3 y Hedra Studio: inferencia conjunta de imagen, texto y audio

Hedra ha presentado Character-3 y Hedra Studio, dos innovaciones que marcan un hito en la tecnología de avatares digitales. Estos avances permiten la inferencia conjunta de imagen, texto y audio, abriendo nuevas posibilidades para la creación de experiencias inmersivas y realistas en diversas aplicaciones.

Mar 9, 2025

Boletín diario de IA: Alibaba lanza el modelo de inferencia multimodal QVQ-72B; OpenAI considera desarrollar un robot humanoide; QQ Music lanza el primer efecto de sonido de IA de gran modelo

¡Bienvenido al boletín diario de IA! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del campo de la IA, centrándonos en los desarrolladores y ayudándole a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA. Para conocer los nuevos productos de IA, haga clic aquí: https://top.aibase.com/1. ¡Alibaba lanza el modelo de inferencia multimodal QVQ-72B! Aunque la versión preliminar o1 mostró un rendimiento excelente en algunos aspectos, en la práctica todavía se enfrenta a problemas como altos costes y sugerencias de prueba poco realistas.

Dec 25, 2024

800

¡阿里巴巴 lanza el modelo de inferencia multimodal QVQ-72B! Mejora la capacidad visual y lingüística, resolviendo problemas complejos con facilidad

Alibaba ha lanzado recientemente un nuevo modelo de inferencia multimodal llamado QVQ-72B. Construido sobre Qwen2-VL-72B, este modelo integra potentes capacidades lingüísticas y visuales, lo que le permite manejar tareas de inferencia y análisis más complejas. Esto marca un nuevo avance de Alibaba en el campo de la IA multimodal. QVQ-72B muestra una mejora significativa en el razonamiento visual, problemas matemáticos y científicos, especialmente en tareas de razonamiento de varios pasos. Esto significa que el modelo no solo puede comprender información textual, sino también información de imágenes, y realizar inferencias de varios pasos.

Dec 25, 2024

6.1k

La Universidad de Pekín publica conjuntamente el agente de IA Jarvis-1, que conquista "Minecraft"

La Universidad de Pekín, la Universidad de Tecnología Postal de China, UCLA y BIGAI han publicado conjuntamente Jarvis-1, que integra de forma innovadora la percepción multimodal, la memoria multimodal y el aprendizaje autónomo. Jarvis-1 muestra un rendimiento excepcional en el juego "Minecraft", mejorando significativamente la tasa de finalización de tareas gracias a la memoria multimodal, como la asombrosa tasa de finalización del 12,5% en la tarea de sintetizar un pico de diamante. El equipo de investigación, al combinar modelos básicos multimodales con LLM, permite a Jarvis-1 comprender el entorno de forma natural y realizar una planificación interactiva, convirtiéndose en una inteligencia general para mundos abiertos.

Dec 8, 2023

480

He Xiaodong analiza la estrategia de modelos grandes de JD.com: en la era de la inteligencia industrial, las empresas deben realizar inversiones a largo plazo

Aunque ChatGPT muestra una sorprendente capacidad general, la integración de la inteligencia multimodal aún necesita avances para lograr una verdadera emergencia inteligente. Los modelos verticales para dominios específicos tienen un valor de aplicación práctica más alto que los modelos generales, y necesitan una integración profunda con escenarios específicos. Los modelos industriales deben actualizarse continuamente, exigiendo inversiones a largo plazo y colaboración industrial. Los CTO deben planificar con anticipación las nuevas tecnologías y considerar el valor global del desarrollo actual y futuro. Las empresas deben adherirse al longtermismo e invertir con firmeza en la industrialización de la tecnología de modelos grandes.

Oct 24, 2023

400

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General