MathVerse: Un nuevo benchmark para evaluar la capacidad de razonamiento matemático visual en modelos lingüísticos grandes multimodales

站长之家

Publicado elNoticias de IA · 1 minutos de lectura · Mar 26, 2024

Nuevo Benchmark MathVerse para Modelos de Lenguaje Multimodales

El sitio web 站长之家 (Zhànzhǎng zhī jiā) informó sobre un nuevo punto de referencia llamado MathVerse, diseñado para evaluar el rendimiento de los grandes modelos de lenguaje multimodales (MLLMs) en problemas matemáticos visuales. El estudio reveló que la mayoría de los modelos dependen en gran medida de la entrada visual, pero GPT-4V demostró un excelente desempeño tanto en texto como en aspectos visuales.

El lanzamiento de este benchmark ofrece nuevas perspectivas para el futuro desarrollo de los MLLMs.

MLLMs Matemáticas visuales MATHVERSE

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Comparación de habilidades matemáticas en el examen de ingreso a la universidad de AI nacional: Quark lidera DouBao y YuanBao

Jun 13, 2025

La IA generativa invade silenciosamente los bastidores del cine y la televisión: el Reino Unido enfrenta cuatro crisis urgentes

El Instituto Británico de Cine (BFI) ha emitido recientemente un informe crucial que señala cómo la IA generativa está transformando silenciosamente la industria del cine, la televisión y los videojuegos en el Reino Unido. Esta tecnología no solo se utiliza ampliamente detrás de cámaras para mejorar la eficiencia de las producciones, sino que también ha impulsado nuevas formas de creación y nuevos modelos comerciales. Según el informe, la IA generativa ya se utiliza para acelerar la escritura de guiones, la modelización de personajes y la creación de efectos visuales, reduciendo significativamente tiempo y costos. Algunas obras incluso han contado con la ayuda de IA durante la concepción inicial y las decisiones de edición, brindando un impulso a la creatividad mientras que también permite a las pequeñas y medianas compañías de producción obtener...

Jun 10, 2025

Concursos de Matemáticas del Examen de Ingreso a la Universidad: Seis modelos de IA compiten y Dou Bao y Yuan Bao ganan juntos el primer lugar

Jun 9, 2025

Kunlun Wanwei lanza el modelo de código abierto Skywork-OR1, con excelentes habilidades matemáticas

El equipo TianGong de Kunlun Wanwei ha anunciado el lanzamiento de su nueva y mejorada serie de modelos Skywork-OR1 (Open Reasoner1), que sigue al lanzamiento en febrero de 2025 de Skywork-o1, el primer gran modelo de razonamiento lógico en chino. Esta serie de modelos ha logrado un rendimiento de inferencia líder en la industria con el mismo tamaño de parámetros, superando aún más los límites de los grandes modelos en la comprensión lógica y la resolución de tareas complejas.

Apr 14, 2025

Sider AI lanza la innovadora función Deep Research: simula la investigación humana y genera informes visuales

Mar 21, 2025

ViDoRAG, el sistema RAG de documentos visuales de código abierto de Alibaba Tongyi, alcanza una precisión del 79.4%

Mar 3, 2025

El nuevo sistema de IA de DeepMind supera a los ganadores de medallas de oro en las Olimpiadas Internacionales de Matemáticas

Recientemente, un sistema de IA desarrollado por Google DeepMind, AlphaGeometry2, ha superado el nivel medio de los ganadores de medallas de oro en las Olimpiadas Internacionales de Matemáticas (OIM), mostrando un rendimiento excepcional en la resolución de problemas de geometría. AlphaGeometry2 es una versión mejorada del sistema AlphaGeometry lanzado por DeepMind el año pasado. En el último estudio, el equipo de investigación indica que el sistema puede resolver el 84% de los problemas de geometría de las OIM de los últimos 25 años.

Feb 8, 2025

940

¡Modelos de razonamiento con IA que superan a los humanos en matemáticas y programación!

En la era del rápido desarrollo de la IA, los modelos de razonamiento, como importantes vehículos de la tecnología de IA, están evolucionando a una velocidad asombrosa. Desde el razonamiento matemático hasta la generación de código, desde el cálculo científico hasta el procesamiento multimodal, la nueva generación de modelos de razonamiento con IA ha demostrado capacidades sin precedentes. Este artículo explorará a fondo cinco modelos de razonamiento con IA de vanguardia que no solo mejoran la eficiencia del trabajo, sino que también superan a los expertos humanos en varios campos. Introducción a los modelos de razonamiento con IA OpenAI o3 El modelo OpenAI o3 es la nueva generación de modelos de razonamiento después de o1

Jan 22, 2025

1.4k

El lado oscuro de la luna lanza el nuevo modelo SOTA k1.5: capacidad de razonamiento multimodal mejorada

La compañía El lado oscuro de la luna presenta con orgullo su nuevo modelo SOTA (State-of-the-art) — el modelo de razonamiento multimodal k1.5—, que marca un gran avance en el razonamiento multimodal y el razonamiento general. Este modelo no solo posee una excelente capacidad de procesamiento multimodal, sino que también muestra una capacidad de razonamiento general excepcional, capaz de abordar eficazmente una variedad de tareas complejas. El punto culminante del modelo k1.5 es su capacidad de razonamiento multimodal. Puede procesar simultáneamente información de diferentes modalidades, como texto, imágenes y sonido, para proporcionar resultados más completos y precisos.

Jan 21, 2025

2.2k

Taobao lanza un método innovador de alineación para resolver el problema de las alucinaciones en los modelos visuales de gran tamaño

En los últimos años, los modelos visuales de gran tamaño (Large Vision Language Models, LVLMs) han demostrado una capacidad excepcional en la comprensión de imágenes y tareas multimodales. Sin embargo, el problema de las "alucinaciones" se ha vuelto cada vez más destacado. Para abordar este desafío, el equipo del laboratorio de vida futura del grupo Taobao ha propuesto un nuevo método llamado "Optimización de preferencia de tokens" (Token Preference Optimization, TPO), e introduce un método de autocalibración.

Jan 20, 2025

1.3k

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief