GLM-4.1V-Thinking da Zhipu AI: Novo avanço em modelos de raciocínio multimodal

AIbase基地

Publicado emNotícias e Informações de IA · 3 minutos de leitura · Jul 2, 2025

A Zhipu AI lançou oficialmente a nova geração do modelo de visão geral GLM-4.1V-Thinking, baseado na arquitetura GLM-4V, com a adição de um mecanismo de raciocínio em cadeia, que melhora significativamente a capacidade de tarefas cognitivas complexas. Este modelo suporta entradas multimodais como imagens, vídeos e documentos, sendo especializado em compreensão de vídeos longos, perguntas e respostas sobre imagens, resolução de problemas de disciplinas, reconhecimento de texto, interpretação de documentos, Grounding, GUI Agent e geração de código, atendendo às necessidades de aplicação de milhares de indústrias.

O GLM-4.1V-9B-Thinking obteve excelentes resultados em 28 avaliações autorizadas, alcançando o melhor desempenho de modelos com 10B parâmetros em 23 delas e igualando ou superando os modelos Qwen-2.5-VL com 72B parâmetros em 18 delas, incluindo benchmarks como MMStar, MMMU-Pro, ChartQAPro e OSWorld. Com 9 bilhões de parâmetros e uma eficiente capacidade de raciocínio, ele pode ser executado em uma única placa de vídeo 3090, além de oferecer uma licença gratuita para uso comercial, reduzindo significativamente a barreira para os desenvolvedores.

A Zhipu AI afirma que o GLM-4.1V-Thinking otimizou sua capacidade de raciocínio transversal por meio de técnicas de aprendizado reforçado e amostragem de currículo, demonstrando profundidade de pensamento e capacidade de resolução de problemas complexos. O modelo foi lançado no HuggingFace, permitindo que desenvolvedores de todo o mundo o experimentem gratuitamente. A indústria acredita que essa iniciativa impulsionará o uso amplo de IA multimodal nas áreas de educação, pesquisa e negócios, marcando mais um marco na jornada da Zhipu AI em direção à inteligência artificial geral.

GLM-4.1V-Thinking Zhipu AI Entrada multimodal Modelo visual

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Google lança novo modelo de geração de vídeo Veo 3 em todo o mundo

O Google anunciou oficialmente a lançamento mundial do seu novo modelo de geração de vídeo Veo3. Essa notícia é aguardada há muito tempo pelos usuários, e o Veo3 já está disponível para usuários Gemini em mais de 159 países, oferecendo uma nova experiência de criação de vídeos. As características do modelo de geração de vídeo Veo3 incluem a capacidade de gerar vídeos com até oito segundos a partir de simples dicas de texto. Segundo a Google, essa tecnologia foi projetada especialmente para usuários criativos, especialmente para os usuários das redes sociais que têm crescente demanda por conteúdo curto.

Jul 4, 2025

DeepMind lança Crome: melhorando a alinhamento de grandes modelos de linguagem com o feedback humano

Na área de inteligência artificial, os modelos de recompensa são componentes fundamentais para alinhar grandes modelos de linguagem (LLMs) ao feedback humano, mas os modelos atuais enfrentam o problema das "hacks de recompensa". Esses modelos normalmente se concentram em características superficiais, como o comprimento ou a formatação das respostas, em vez de identificar métricas reais de qualidade, como precisão factual e relevância. A raiz do problema está no fato de que os objetivos de treinamento padrão não conseguem distinguir entre associações falsas presentes nos dados de treinamento e fatores causais reais. Essa falha resulta em modelos de recompensa frágeis (RMs), gerando estratégias desalinhadas.

Jul 4, 2025

MiniMax lança o primeiro modelo de inteligência artificial de grande escala de código aberto do mundo, uma inovação tecnológica que chama a atenção da indústria

Jul 4, 2025

Kunlun Tech abre novamente o modelo de recompensa Skywork-Reward-V2

Em 4 de julho de 2025, a Kunlun Tech avança com a abertura do segundo modelo de recompensa da série Skywork-Reward-V2. Esta série inclui 8 modelos de recompensa baseados em diferentes modelos-base, com tamanhos de parâmetros variando de 600 milhões a 8 bilhões. Ao ser lançado, conquistou totalmente as sete principais listas de classificação de modelos de recompensa. Tornou-se o foco no campo dos modelos de recompensa de código aberto. Os modelos de recompensa desempenham um papel crucial no processo de aprendizado por reforço com feedback humano (RLHF). Para criar um novo modelo de recompensa, a Kunlun Tech construiu uma coleção de 40 milhões

Jul 4, 2025

O modelo de geração de vídeo Google Veo 3 está disponível para assinantes Pro/Ultra, incluindo nova funcionalidade de geração de vídeo a partir de fotos

A Google anunciou globalmente que seu novo modelo de geração de vídeo com IA chamado Veo3 está oficialmente disponível para assinantes Google AI Pro e Ultra. Este modelo de geração de vídeo desenvolvido pelo Google DeepMind tornou-se rapidamente o foco da indústria de geração de vídeos com IA, graças à sua excelente qualidade de imagem em alta definição, capacidade de sincronização de áudio e vídeo e funcionalidades de criação multimodal. Veo3: Redefinindo a geração de vídeos com IA, apresentado pela primeira vez na conferência Google I/O de 2025.

Jul 4, 2025

Xiaopeng G7 Ultra chega com força! Novo modelo de condução autônoma inteligente é lançado

No mercado de veículos elétricos, a Xiaopeng Motors novamente chama atenção. Em 3 de julho, o Xiaopeng G7 Ultra foi oficialmente lançado, tornando-se o primeiro veículo inteligente a montar o modelo "VLA+VLM" local. Essa inovação tecnológica marca um passo importante para a Xiaopeng no campo da condução autônoma. O Xiaopeng G7 Ultra é equipado com o modelo VLA (capacidade de pensar ativamente e tomar decisões rapidamente), tornando a experiência de direção mais inteligente. No dia a dia, o G7 Ultra consegue lidar flexivelmente com diversos cenários complexos de direção, como em tráfego denso.

Jul 4, 2025

O Shortcut surge na cena! Assistente AI do Excel supera 10 vezes os campeões humanos, aumentando a eficiência das tarefas automatizadas

Recentemente, um assistente AI para Excel chamado Shortcut causou grande polêmica nas redes sociais. Com tecnologia de processamento de linguagem natural (NLP), ele permite que os usuários realizem tarefas no Excel sem precisar escrever fórmulas complexas ou códigos VBA. A equipe de edição da AIbase coletou as últimas informações das redes sociais e oferece uma análise detalhada sobre as poderosas funcionalidades do Shortcut e seu potencial impacto nos campos de processamento de dados e modelagem financeira. Shortcut: A revolução do Excel impulsionada pela linguagem natural

Jul 3, 2025

Jornal A: Bilibili atualiza o modelo de geração de vídeos animados AniSora V3; ByteDance abre o framework de geração de vídeo 4D EX-4D; Sistema de agente de IA DeepSWE é lançado com força

Jul 3, 2025

Novo modelo aberto pela ByteDance VINCIE-3B: 300 milhões de parâmetros, suporte para edição contínua de imagens no contexto

Jul 3, 2025

Modelo de geração de vídeos animados de código aberto Bilibili AniSora V3 Versão: Gere várias estilos de cenas de vídeos animados com um clique

Jul 3, 2025

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

GLM-4.1V-Thinking da Zhipu AI: Novo avanço em modelos de raciocínio multimodal

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

​Google lança novo modelo de geração de vídeo Veo 3 em todo o mundo

DeepMind lança Crome: melhorando a alinhamento de grandes modelos de linguagem com o feedback humano

MiniMax lança o primeiro modelo de inteligência artificial de grande escala de código aberto do mundo, uma inovação tecnológica que chama a atenção da indústria

Kunlun Tech abre novamente o modelo de recompensa Skywork-Reward-V2

O modelo de geração de vídeo Google Veo 3 está disponível para assinantes Pro/Ultra, incluindo nova funcionalidade de geração de vídeo a partir de fotos

Xiaopeng G7 Ultra chega com força! Novo modelo de condução autônoma inteligente é lançado

O Shortcut surge na cena! Assistente AI do Excel supera 10 vezes os campeões humanos, aumentando a eficiência das tarefas automatizadas

Jornal A: Bilibili atualiza o modelo de geração de vídeos animados AniSora V3; ByteDance abre o framework de geração de vídeo 4D EX-4D; Sistema de agente de IA DeepSWE é lançado com força

Novo modelo aberto pela ByteDance VINCIE-3B: 300 milhões de parâmetros, suporte para edição contínua de imagens no contexto

Modelo de geração de vídeos animados de código aberto Bilibili AniSora V3 Versão: Gere várias estilos de cenas de vídeos animados com um clique

Google lança novo modelo de geração de vídeo Veo 3 em todo o mundo