MathVerse: Um novo benchmark para avaliar a capacidade de matemática visual em modelos de linguagem grandes multimodais

站长之家

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Mar 26, 2024

Novo Benchmark MathVerse Avalia LLMs Multimodais em Problemas de Matemática Visual

O site 站长之家 reportou um novo benchmark chamado MathVerse, projetado para avaliar o desempenho de grandes modelos de linguagem multimodais (MLLMs) em problemas de matemática visual. A pesquisa descobriu que a maioria dos modelos depende fortemente da entrada visual, mas o GPT-4V se destacou tanto no texto quanto na entrada visual.

O lançamento deste benchmark oferece novas perspectivas para o desenvolvimento futuro de MLLMs.

MLLMs Matemática Visual MATHVERSE

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

GLM-4.1V-Thinking da Zhipu AI: Novo avanço em modelos de raciocínio multimodal

A Zhipu AI oficialmente abriu o código do novo modelo geral de visão GLM-4.1V-Thinking, baseado na arquitetura GLM-4V, com a adição de mecanismos de raciocínio em cadeia, significativamente melhorando a capacidade de tarefas cognitivas complexas. Este modelo suporta entrada multimodal como imagens, vídeos e documentos, sendo especializado em compreensão de vídeos longos, perguntas e respostas sobre imagens, resolução de problemas de disciplinas, reconhecimento de texto, interpretação de documentos, Grounding, GUI Agent e geração de código, atendendo às necessidades de aplicações em diversos setores. GLM-4.1V-9B-Thinkin

Jul 2, 2025

Qwen VLo, o modelo de compreensão e geração multimodal unificado da Tongyi Qianwen

Recentemente, o modelo de linguagem multimodal Qwen VLo foi oficialmente lançado, alcançando avanços significativos na compreensão e geração de conteúdo de imagem, oferecendo aos usuários uma nova experiência de criação visual. Segundo informações divulgadas, o Qwen VLo realizou uma atualização abrangente com base nas vantagens dos modelos anteriores da série Qwen-VL. Esse modelo não apenas consegue entender claramente o "mundo", mas também pode realizar uma recriação de alta qualidade com base em essa compreensão, realmente realizando uma transição da percepção para a geração. Os usuários agora podem acessar o Qwen Chat (chat.qwen.ai)

Jun 28, 2025

O Vibemotion AI é lançado! Crie vídeos dinâmicos com um único clique, a barreira de entrada para a criação é reduzida, detonando uma revolução visual

Recentemente, a empresa inovadora de IA Vibemotion lançou uma plataforma revolucionária de gráficos dinâmicos de IA, que visa permitir aos usuários criar vídeos dinâmicos de alta qualidade com apenas dicas e materiais de entrada simples. Atualmente, a plataforma acessa por meio de lista de espera, gerando amplo interesse entre criadores de conteúdo em todo o mundo. O AIbase analisa profundamente os recursos desta plataforma e seu potencial impacto na indústria criativa. Crie vídeos dinâmicos com um único clique, o nível de entrada para a criação foi reduzido a um novo patamar. A plataforma de gráficos dinâmicos de IA do Vibemotion tem como núcleo uma experiência de operação extremamente simplificada.

Jun 26, 2025

Adeus à fobia por código! Douyin lança programação de IA visual, arraste e solte para criar aplicativos da web

Jun 24, 2025

Terence Tao: IA falta de intuição matemática, intuição humana ainda é essencial

Jun 17, 2025

NVIDIA e a Universidade de Hong Kong lançam novo mecanismo de atenção visual, aumentando a velocidade de geração de alta resolução mais de 84 vezes!

Jun 10, 2025

Apple WWDC 2025: Atualização do iOS 26 com inteligência visual e IA auxiliando o reconhecimento de conteúdo na tela

Jun 10, 2025

Concursos de Matemática do Gaokao: Seis modelos de IA competem, DouBao e YuanBao vencem juntos

Jun 9, 2025

Higgsfield lança a função Speak: gere vídeos de pessoas digitais com sincronização labial precisa com um toque

A plataforma de geração visual por IA Higgsfield lançou mais uma funcionalidade essencial - ‘Speak’, proporcionando aos criadores de conteúdo de pessoa digital uma experiência inovadora e conveniente. Basta seguir três passos: escolher os movimentos pré-definidos, carregar o personagem personalizado e inserir o texto da fala, para gerar vídeos de pessoas digitais com sincronização labial e movimentos naturais. A função Speak suporta tecnologia de sincronização labial precisa, garantindo que os personagens tenham pronúncia natural e correta. Além disso, ela vem acompanhada de 16 tipos de cenários internos, incluindo entrevistas, explicações, propagandas, curtas dramáticas e muito mais, elevando significativamente a diversidade e a qualidade das criações.

Jun 6, 2025

Instituto Beihang lança modelo de compreensão de vídeos longos leve Video-XL-2

Recentemente, o Instituto Beihang, em conjunto com outras instituições como a Universidade de Xangai, lançou oficialmente uma nova geração de modelos para compreensão de vídeos longos — o Video-XL-2. O lançamento deste modelo marca um grande avanço no campo da compreensão de vídeos longos no setor de código aberto, infundindo novo dinamismo no desenvolvimento de grandes modelos multimoedas na compreensão de conteúdo de vídeos longos. No que diz respeito à arquitetura tecnológica, o Video-XL-2 consiste principalmente de três componentes principais: um codificador visual, um módulo de síntese de Tokens dinâmicos (DTS) e um modelo grande de linguagem (LLM). Este modelo utiliza Sig

Jun 3, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief