¡Enfrentándose a GPT-4V! LLaVA-1.5, un modelo multimodal de código abierto desarrollado por un exalumno de la Universidad de Zhejiang, con 13 mil millones de parámetros, entrenado en 8 A100 en un día.

新智元

Publicado elNoticias de IA · 2 minutos de lectura · Oct 8, 2023

147

Investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia han lanzado el modelo multimodal de lenguaje a gran escala LLaVA-1.5 de código abierto. Este modelo ha demostrado un rendimiento excepcional en 11 pruebas de referencia, incluyendo preguntas y respuestas visuales y tareas de subtitulado de imágenes. LLaVA-1.5 solo necesita 8 GPUs A100 y se entrena en un día, logrando un rendimiento notable. Los investigadores propusieron un método para agregar indicaciones de formato de salida durante el ajuste fino, permitiendo que el modelo se adapte mejor a diferentes tareas. La potente capacidad de comprensión multimodal de LLaVA-1.5 desafía la posición de GPT-4V.

LLaVA-1.5 Modelo multimodal de gran tamaño GPT-4V

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

ChatGPT ayuda al crecimiento del tráfico de un sitio de noticias, pero no puede compensar la caída del tráfico de búsqueda

Jul 3, 2025

El agente Lovart versión nacional está en línea, diseño de carteles por lotes y tipografía china adaptados perfectamente

Jul 3, 2025

Lista de talentos en IA a nivel mundial 2025: El ascenso de expertos chinos y fuerzas emergentes

Jul 3, 2025

Diario A: Bilibili actualiza el modelo de generación de videos animados AniSora V3; ByteDance abre el framework de generación de videos 4D EX-4D; el sistema de agente de inteligencia artificial DeepSWE se impone con fuerza

Jul 3, 2025

TikTok presenta su nuevo modelo de código abierto VINCIE-3B: 300 millones de parámetros, edición continua de imágenes en contexto

Jul 3, 2025

¡Claude Code se actualiza nuevamente! La función Hooks desbloquea una nueva dimensión en la programación con IA, la automatización es más inteligente

Con la aplicación cada vez más profunda de las tecnologías de inteligencia artificial en el ámbito de la programación, Claude Code de Anthropic se ha convertido en una herramienta indispensable para muchos desarrolladores gracias a su capacidad poderosa de comprensión de código y automatización. Ayer, Claude Code recibió una importante actualización, añadiendo la función Hooks, que ofrece a los desarrolladores un control más preciso y una experiencia de desarrollo más eficiente. ¿Qué es la función Hooks? La función Hooks es una característica introducida por Claude Code que permite al usuario personalizar el shell.

Jul 3, 2025

Perplexity lanza un plan de suscripción Max: 200 dólares al mes para acceder a una productividad ilimitada con IA

Jul 3, 2025

Baidu Wenyin colabora con la tienda de aplicaciones de Xiaomi, los agentes inteligentes ya están disponibles en los mercados tradicionales de aplicaciones

Jul 3, 2025

Informe de KPMG: Número de modelos médicos grandes en China lidera, representando el 70% del mundo

El informe "Top 50 en Tecnología de Salud", publicado recientemente por KPMG en China, revela que China ocupa una posición dominante en el campo de los modelos médicos grandes. El informe indica que, entre los modelos médicos grandes publicados en todo el mundo, el número de publicaciones en China representa más del 70%, muy por delante de otros países y regiones. En cuanto a las categorías de modelos, los modelos de lenguaje grande (LLM) son los más numerosos, representando casi el 65%. Además, el informe destaca el fuerte crecimiento del mercado chino de equipos médicos inteligentes. Se espera que el tamaño del mercado de equipos médicos inteligentes en China alcance los 24.23 mil millones de yuanes para 2025 y seguirá creciendo.

Jul 3, 2025

¡La impresionante presentación de Topview Avatar 2! La revolución de los avatares digitales de IA en el comercio electrónico: ¿Ha terminado la era de los modelos?

Jul 3, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

¡Enfrentándose a GPT-4V! LLaVA-1.5, un modelo multimodal de código abierto desarrollado por un exalumno de la Universidad de Zhejiang, con 13 mil millones de parámetros, entrenado en 8 A100 en un día.

新智元

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

ChatGPT ayuda al crecimiento del tráfico de un sitio de noticias, pero no puede compensar la caída del tráfico de búsqueda

El agente Lovart versión nacional está en línea, diseño de carteles por lotes y tipografía china adaptados perfectamente

Lista de talentos en IA a nivel mundial 2025: El ascenso de expertos chinos y fuerzas emergentes

Diario A: Bilibili actualiza el modelo de generación de videos animados AniSora V3; ByteDance abre el framework de generación de videos 4D EX-4D; el sistema de agente de inteligencia artificial DeepSWE se impone con fuerza

TikTok presenta su nuevo modelo de código abierto VINCIE-3B: 300 millones de parámetros, edición continua de imágenes en contexto

¡Claude Code se actualiza nuevamente! La función Hooks desbloquea una nueva dimensión en la programación con IA, la automatización es más inteligente

Perplexity lanza un plan de suscripción Max: 200 dólares al mes para acceder a una productividad ilimitada con IA

Baidu Wenyin colabora con la tienda de aplicaciones de Xiaomi, los agentes inteligentes ya están disponibles en los mercados tradicionales de aplicaciones

Informe de KPMG: Número de modelos médicos grandes en China lidera, representando el 70% del mundo

¡La impresionante presentación de Topview Avatar 2! La revolución de los avatares digitales de IA en el comercio electrónico: ¿Ha terminado la era de los modelos?