Zhigpu lanza un nuevo modelo de visión GLM-4.5V que puede diferenciar fácilmente las marcas de pollo frito

AIbase基地

Publicado elNoticias de IA · 4 minutos de lectura · Aug 12, 2025

El 11 de agosto, Zhipu Tech lanzó oficialmente su nuevo modelo de comprensión visual —— GLM-4.5V. Este modelo se entrenó basándose en su nuevo modelo de texto GLM-4.5-Air, heredando la línea técnica del modelo anterior de razonamiento visual GLM-4.1V-Thinking. Cuenta con un asombroso número de parámetros de 106 mil millones y 12 mil millones de parámetros activados. Destaca que el GLM-4.5V incluye una función de "modo de pensamiento", que los usuarios pueden elegir activar o no, lo que les permite manejar las tareas de manera más flexible.

La capacidad visual de este modelo es notable, ya que puede distinguir fácilmente entre el ala de pollo de McDonald's y KFC, analizando profundamente desde múltiples ángulos como el color y la textura. Además, el GLM-4.5V puede participar en desafíos de adivinar ubicaciones en imágenes, incluso logrando excelentes resultados en competencias, superando al 99% de los participantes humanos y colocándose en el puesto 66. Zhipu también mostró el excelente desempeño de este modelo en 42 pruebas estándar, obteniendo puntuaciones superiores a otros modelos de tamaño similar en la mayoría de las pruebas.

Actualmente, el GLM-4.5V ya está disponible en plataformas de código abierto como Hugging Face, ModelScope y GitHub, donde los usuarios pueden descargarlo gratis y también se ofrece una versión cuantificada en FP8. Para ofrecer una mejor experiencia con este modelo, Zhipu lanzó una aplicación de asistente de escritorio que admite capturas de pantalla y grabaciones en tiempo real, ayudando a los usuarios a realizar diversas tareas de razonamiento visual, incluyendo asistencia en código y interpretación de documentos.

En pruebas prácticas, el GLM-4.5V demostró habilidades destacadas, capaz de inferir ubicaciones a partir de imágenes cargadas, aunque ocasionalmente presenten pequeños errores, el proceso de razonamiento sigue siendo muy rico. Al procesar contenido web, puede generar páginas con alta similitud mediante capturas de pantalla, mostrando una poderosa capacidad de reproducción.

El GLM-4.5V no solo destaca en el campo de la comprensión visual, sino que también muestra un gran potencial en escenarios de aplicación de Agentes. Con el continuo desarrollo de esta tecnología, tenemos motivos para esperar que en el futuro, esta tecnología brinde más comodidad a la vida de las personas.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Zhigpu lanza un nuevo modelo de visión GLM-4.5V que puede diferenciar fácilmente las marcas de pollo frito

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El estudio revela que el uso de la IA nos hace sobreestimar nuestras capacidades cognitivas

El CEO de OpenAI anuncia: 2028, lograr un investigador de IA completamente automático

Sequoia Capital invertirá en Rogo Technologies; la herramienta de inteligencia artificial podría revolucionar el rol del banquero junior

Millones de usuarios a la semana confiesan pensamientos suicidas a ChatGPT, OpenAI actualiza urgentemente las medidas de seguridad de GPT-5 para hacer frente a crisis psicológicas

Google Earth integra el modelo de gran tamaño Gemini para identificar riesgos de tormentas y sequías

Modelo M2 de MiniMax abierto: IA de alto rendimiento que potencia la programación y el agente, con un costo equivalente al 8% de la competencia

¡Avances en edición de imágenes con IA! ByteDance colabora con la Universidad de Hong Kong y otras instituciones para abrir al público DreamOmni2, resolviendo el problema de que las IA entiendan conceptos abstractos

Reestructuración de 01.AI: Li Kaifu apuesta por ToB y tres nuevos directivos asumen el control para acelerar la comercialización

Meituan lanza el modelo de generación de video LongCat-Video, que admite de forma nativa la salida continua de 5 minutos

¡Diferencia de coste del 99,7%! La IA imita el estilo de los escritores y es más apreciada, lo que plantea cuestiones sobre los límites del uso razonable y desencadena litigios por derechos de autor