GLM-4.1V-Thinking de Zhipu AI: nuevo avance en modelos de razonamiento multimodal

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Jul 2, 2025

El modelo de visión general GLM-4.1V-Thinking de Zhipu AI se ha lanzado oficialmente como código abierto. Basado en la arquitectura GLM-4V, incorpora un mecanismo de razonamiento en cadena de pensamiento, lo que mejora significativamente la capacidad para tareas cognitivas complejas. Este modelo admite entradas multimodales como imágenes, videos y documentos, y destaca en escenarios diversos como el entendimiento de videos largos, preguntas y respuestas sobre imágenes, resolución de problemas académicos, reconocimiento de texto, interpretación de documentos, Grounding, GUI Agent y generación de código, satisfaciendo así las necesidades de aplicación en cientos de industrias.

GLM-4.1V-9B-Thinking destacó en 28 evaluaciones autorizadas, logrando en 23 de ellas el mejor rendimiento de modelos con 10 mil millones de parámetros, y en 18 de ellas igualó o superó a Qwen-2.5-VL con 72 mil millones de parámetros, incluyendo benchmarks como MMStar, MMMU-Pro, ChartQAPro y OSWorld. Con su tamaño de 9 mil millones de parámetros y una capacidad de inferencia eficiente, puede ejecutarse en una sola tarjeta gráfica 3090 y cuenta con una licencia gratuita para uso comercial, reduciendo significativamente la barrera para los desarrolladores.

Zhipu AI indicó que GLM-4.1V-Thinking optimizó su capacidad de razonamiento transversal mediante técnicas de aprendizaje por refuerzo y muestreo por cursos, mostrando una profundidad de pensamiento y capacidad de resolución de problemas complejos. El modelo ya está disponible en HuggingFace para que los desarrolladores de todo el mundo lo experimenten gratuitamente. La industria considera que este paso impulsará la amplia aplicación de la inteligencia artificial multimodal en educación, investigación y comercio, marcando otro hito en el camino de Zhipu AI hacia la inteligencia artificial general.

GLM-4.1V-Thinking Zhipu AI entrada multimodal modelo visual

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Google presenta globalmente su nuevo modelo de generación de videos Veo 3

Google anunció oficialmente la puesta en marcha a nivel mundial de su último modelo de generación de videos Veo3. Esta noticia ha generado mucha expectativa entre los usuarios, y ahora Veo3 está disponible para los usuarios de Gemini en más de 159 países, ofreciendo una experiencia completamente nueva para crear videos. Las características del modelo de generación de videos Veo3 permiten a los usuarios generar videos de hasta ocho segundos a partir de simples instrucciones de texto. Según la descripción de Google, esta tecnología está diseñada especialmente para usuarios creativos, especialmente para los usuarios de redes sociales que cada vez demandan más contenido en forma de videos cortos.

Jul 4, 2025

DeepMind presenta Crome: mejorar la alineación de modelos de lenguaje grandes con el feedback humano

En el campo de la inteligencia artificial, los modelos de recompensa son un componente clave para alinear los modelos de lenguaje grandes (LLMs) con el feedback humano, pero los modelos existentes enfrentan el problema de "hackeo de recompensa". Estos modelos suelen centrarse en características superficiales, como la longitud o el formato de las respuestas, en lugar de identificar indicadores reales de calidad, como la precisión factual y la relevancia. La raíz del problema radica en que los objetivos estándar de entrenamiento no pueden distinguir entre asociaciones falsas presentes en los datos de entrenamiento y factores causales reales. Este fracaso da lugar a modelos de recompensa frágiles (RMs), lo que genera estrategias mal alineadas.

Jul 4, 2025

MiniMax presenta el primer modelo de inteligencia artificial a gran escala de código abierto en el mundo, un avance tecnológico que ha llamado la atención de la industria

Jul 4, 2025

Kunlun Vision vuelve a abrir el modelo de recompensa Skywork-Reward-V2

El 4 de julio de 2025, Kunlun Vision avanza con entusiasmo y continúa abriendo el segundo modelo de recompensa de la serie Skywork-Reward-V2. Esta serie incluye ocho modelos de recompensa basados en diferentes modelos base, con tamaños de parámetros que van desde 600 millones hasta 8000 millones. Tan pronto como se lanzó, obtuvo victorias totales en siete listas principales de evaluación de modelos de recompensa, convirtiéndose en el centro de atención en el campo de los modelos de recompensa de código abierto. Los modelos de recompensa desempeñan un papel clave en el proceso de aprendizaje por refuerzo con retroalimentación humana (RLHF). Para crear un nuevo modelo de recompensa, Kunlun Vision ha construido un conjunto de datos que incluye 40 millones

Jul 4, 2025

El modelo de generación de videos Google Veo 3 ahora está disponible para suscriptores Pro / Ultra, se añadirá la función de generación de videos a partir de fotos

Jul 4, 2025

El nuevo G7 Ultra de Xpeng llega con fuerza ¡Se presenta un modelo revolucionario de conducción autónoma inteligente!

En el mercado de automóviles eléctricos, Xpeng Auto vuelve a generar atención. El 3 de julio, el Xpeng G7 Ultra se lanzó oficialmente, convirtiéndose en el primer automóvil inteligente que incorpora el modelo de gran tamaño "VLA+VLM" en el dispositivo local. Esta innovadora tecnología marca un paso importante para Xpeng en el campo de la conducción autónoma. El Xpeng G7 Ultra está equipado con el modelo de gran tamaño VLA (capacidad de pensamiento activo y toma de decisiones rápida), lo que hace que la experiencia de conducción sea más inteligente. En la conducción cotidiana, el G7 Ultra puede manejar diversos escenarios complejos de manejo, por ejemplo, en tráfico denso.

Jul 4, 2025

Diario A: Bilibili actualiza el modelo de generación de videos animados AniSora V3; ByteDance abre el framework de generación de videos 4D EX-4D; el sistema de agente de inteligencia artificial DeepSWE se impone con fuerza

Jul 3, 2025

TikTok presenta su nuevo modelo de código abierto VINCIE-3B: 300 millones de parámetros, edición continua de imágenes en contexto

Jul 3, 2025

Modelo de generación de videosanimados de código abierto de Bilibili AniSora V3, crea con un clic secuencias de video animado en varios estilos

Jul 3, 2025

Stability AI abre código de Stable Audio Open Small, el teléfono se convierte en una herramienta de creación de audio

Jul 3, 2025

Noticias de IA

IA Diario

Cronología de la IA

Al hardware

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

GLM-4.1V-Thinking de Zhipu AI: nuevo avance en modelos de razonamiento multimodal

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Google presenta globalmente su nuevo modelo de generación de videos Veo 3

DeepMind presenta Crome: mejorar la alineación de modelos de lenguaje grandes con el feedback humano

MiniMax presenta el primer modelo de inteligencia artificial a gran escala de código abierto en el mundo, un avance tecnológico que ha llamado la atención de la industria

Kunlun Vision vuelve a abrir el modelo de recompensa Skywork-Reward-V2

El modelo de generación de videos Google Veo 3 ahora está disponible para suscriptores Pro / Ultra, se añadirá la función de generación de videos a partir de fotos

El nuevo G7 Ultra de Xpeng llega con fuerza ¡Se presenta un modelo revolucionario de conducción autónoma inteligente!

Diario A: Bilibili actualiza el modelo de generación de videos animados AniSora V3; ByteDance abre el framework de generación de videos 4D EX-4D; el sistema de agente de inteligencia artificial DeepSWE se impone con fuerza

TikTok presenta su nuevo modelo de código abierto VINCIE-3B: 300 millones de parámetros, edición continua de imágenes en contexto

Modelo de generación de videosanimados de código abierto de Bilibili AniSora V3, crea con un clic secuencias de video animado en varios estilos

Stability AI abre código de Stable Audio Open Small, el teléfono se convierte en una herramienta de creación de audio