Jornal de IA: Alibaba lança novo modelo Qwen3-4B; Xiaohongshu lança modelo de código aberto dots.vlm1; Modelo de geração de voz MiniMax Speech 2.5 está disponível

Bem-vindo ao programa "Diário de IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos aos nossos leitores os assuntos mais quentes do setor de IA, focando nos desenvolvedores, ajudando-o a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos Clique para saber mais:https://top.aibase.com/

1. Alibaba lança novo modelo Qwen3-4B: pequeno e poderoso, pode ser executado em celulares!

O modelo Qwen3-4B da equipe Tongyi Qianwen da Alibaba representa uma importante ruptura no campo de modelos de linguagem pequenos, oferecendo novas soluções técnicas para aplicações de IA em dispositivos móveis. O modelo não apenas se destaca em desempenho, mas também possui eficiente utilização de recursos, atendendo às necessidades de cenários práticos.

【Resumo da AiBase:】
🧠 O modelo Qwen3-4B equilibra desempenho e tamanho, sendo adequado para execução em dispositivos móveis.
📊 O Qwen3-4B-Instruct-2507 supera o desempenho do modelo fechado GPT-4.1-nano, aproximando-se das capacidades do modelo grande Qwen3-30B-A3B.
🧮 O Qwen3-4B-Thinking-2507 obteve altas notas nas avaliações de raciocínio matemático, demonstrando fortes habilidades de raciocínio lógico.

2. Xiaohongshu lança modelo multissensorial de código aberto dots.vlm1, liderando a indústria com o codificador visual NaViT

A Hi Lab da Xiaohongshu lançou o modelo multissensorial de código aberto dots.vlm1, baseado no codificador visual NaViT e no modelo de linguagem grande DeepSeek V3, demonstrando desempenho excepcional, especialmente em raciocínio gráfico e matemático STEM, marcando um novo patamar para modelos multissensoriais de código aberto.

【Resumo da AiBase:】
🧠 Codificador visual NaViT desenvolvido internamente, suporta resolução dinâmica, melhorando a generalização.
📊 Construiu um conjunto de treinamento de grande escala e bem limpo, melhorando a qualidade de alinhamento entre texto e imagem.
🚀 Excelente desempenho em avaliações multissensoriais, próximo dos modelos fechados Gemini2.5Pro e Seed-VL1.5.

3. Modelo de geração de voz Speech 2.5 da MiniMax está disponível: maior expressividade em múltiplos idiomas

A MiniMax lançou o novo modelo de geração de voz Speech2.5, que realizou avanços significativos na expressividade em múltiplos idiomas, reprodução de timbre e cobertura de idiomas. O modelo mantém o nível mais alto globalmente em chinês, enquanto também melhora significativamente o desempenho em inglês e outros múltiplos idiomas, trazendo conveniência e oportunidades de inovação para várias indústrias.

【Resumo da AiBase:】
🧠 O Speech2.5 fez progressos notáveis na expressividade em múltiplos idiomas, suportando a troca de 40 idiomas.
🎙️ A reprodução de timbre atinge a precisão de nível máximo da indústria, preservando características de sotaque regionais.
🌐 A cobertura de idiomas foi expandida para 40 idiomas, incluindo vários idiomas adicionais, auxiliando na criação de conteúdo global.

4. Midjourney lança modo HD de vídeo, especializado para profissionais, criando imagens de alta qualidade

O Midjourney lançou um novo modo de vídeo HD, oferecendo ferramentas de geração de vídeo de alta resolução e qualidade para usuários profissionais. Esse modo melhora significativamente a resolução e nitidez, mas também aumenta o custo. Essa funcionalidade fortalece ainda mais a competitividade do Midjourney no setor de geração de vídeo por IA.

【Resumo da AiBase:】
🎥 O modo HD fornece maior resolução de pixels, atendendo às necessidades dos usuários profissionais por imagens de alta qualidade.
💰 O custo do modo HD é cerca de 3,2 vezes o do modo SD, mas traz melhores resultados visuais.
🚀 O Midjourney continua otimizando sua tecnologia, competindo intensamente com concorrentes como Sora da OpenAI e Gen-4 da Runway.

5. Cursor 1.4 lançado oficialmente: foco em tarefas assíncronas de longa duração, acelerando a automação de grandes bases de código

O lançamento da versão Cursor 1.4 marca uma nova liderança na área de ferramentas de desenvolvimento impulsionadas por IA. Essa versão aumentou significativamente a capacidade de processamento de tarefas assíncronas e de longa duração, otimizou o índice e a busca em grandes bases de código, e impulsionou a transição das ferramentas de codificação por IA para uma automação completa.

【Resumo da AiBase:】
🚀 Capacidade de processamento de tarefas assíncronas melhorada significativamente, suportando Agentes em segundo plano e gerenciamento de filas de tarefas.
🔍 Otimizado para grandes bases de código, melhorando a eficiência de complemento de código e consulta.
🔄 Impulsiona a transição das ferramentas de codificação por IA para automação completa, aumentando a autonomia e a funcionalidade de colaboração dos Agentes.
Link detalhado: https://cursor.com/en/changelog

6. Google nega que a função de pesquisa por IA afete o tráfego de sites, mas dados mostram aumento significativo de pesquisas sem clique

O Google rejeitou as acusações de que a função de pesquisa por IA causou impacto no tráfego de sites, afirmando que o número de cliques naturais permaneceu estável e a qualidade dos cliques melhorou. No entanto, os dados mostram que a proporção de pesquisas sem clique aumentou significativamente, indicando uma mudança no comportamento dos usuários.

【Resumo da AiBase:】
🟢 O Google afirma que a função de pesquisa por IA não afetou significativamente o tráfego de sites, mas a proporção de pesquisas sem clique aumentou.
🟡 O Google enfatiza que a qualidade dos cliques melhorou, mas não forneceu dados específicos para apoiar sua conclusão.
🔴 O comportamento dos usuários está se direcionando para outras plataformas, como Reddit e TikTok, causando mudanças no tráfego do Google.

7. MiniCPM-V4.0 lançado de forma aberta, considerado como o "GPT-4V para celulares"

O modelo multissensorial leve MiniCPM-V4.0, com desempenho notável e design otimizado, se destacou em tarefas como compreensão de imagens, vídeos e conversas em múltiplas etapas. Sua capacidade de operação eficiente em dispositivos móveis abre novas possibilidades para aplicações de IA.

【Resumo da AiBase:】
🔥 O MiniCPM-V4.0 é construído com SigLIP2-400M e MiniCPM4-3B, com apenas 4,1B parâmetros, mas exibe uma forte capacidade de compreensão de imagens e vídeos.
🚀 Testado no iPhone 16 Pro Max, o tempo de resposta inicial é inferior a 2 segundos, com velocidade de decodificação superior a 17 token/s, possuindo capacidade de processamento em paralelo.
🌐 Oferece suporte ecológico rico, compatível com frameworks principais, e fornece aplicativos iOS e tutoriais detalhados, reduzindo a barreira de uso para desenvolvedores.
Link detalhado: https://github.com/OpenBMB/MiniCPM-o

8. AMD e Qualcomm anunciam suporte a modelos abertos gpt-oss em seus hardware

A AMD e a Qualcomm anunciaram conjuntamente o suporte aos modelos abertos gpt-oss da OpenAI, marcando uma importante evolução na combinação de computação nas bordas e IA. O processador Ryzen AI Max+395 tornou-se o primeiro processador de PC de consumo capaz de executar o gpt-oss-120b, enquanto a plataforma Snapdragon da Qualcomm demonstrou a excelente capacidade de raciocínio do gpt-oss-20b.

【Resumo da AiBase:】
🧠 A AMD e a Qualcomm anunciaram o suporte aos modelos abertos gpt-oss da OpenAI, promovendo a combinação de computação nas bordas e IA.
🚀 O processador Ryzen AI Max+395 tornou-se o primeiro processador de PC de consumo capaz de executar o gpt-oss-120b no mundo.
📱 A plataforma Snapdragon da Qualcomm demonstrou a excelente capacidade de raciocínio do gpt-oss-20b, permitindo que os desenvolvedores acessem facilmente os modelos.

9. Nova versão do modelo multissensorial MiniCPM-V 4.0 da Mianbi Intelligent lançada de forma aberta

O modelo multissensorial MiniCPM-V4.0 da Mianbi Intelligent alcançou avanços significativos em quantidade de parâmetros e desempenho. Não apenas obteve resultados SOTA em vários benchmarks, mas também pode funcionar de forma estável em dispositivos de extremidade como celulares. O design único da estrutura do modelo permite tempos de resposta mais rápidos e menor ocupação de memória de vídeo, além de disponibilizar ferramentas de implantação para ajudar os desenvolvedores a implantar de forma leve.

【Resumo da AiBase:】
✨ O MiniCPM-V4.0 alcança melhorias significativas na capacidade multissensorial com 4B parâmetros, atingindo níveis SOTA na mesma classe.
📱 Funciona de forma estável e fluida em dispositivos móveis, adequado para implantação local e tarefas em tempo real.
🚀 A otimização da estrutura do modelo resulta em tempos de resposta mais rápidos e menor ocupação de memória de vídeo, melhorando o desempenho geral.
Link detalhado: https://github.com/OpenBMB/MiniCPM-o

10. Tencent lança de forma aberta WeKnora! Desbloqueie a análise inteligente de documentos complexos, entrando na era da gestão de conhecimento com IA

O WeKnora, lançado pelo Tencent, é uma ferramenta de compreensão e recuperação de documentos baseada em modelos de linguagem grande, capaz de processar documentos multimídia e fornecer extração de conteúdo estruturado eficiente e funcionalidades de interação inteligente. Seu design modular e forte capacidade de processamento semântico trouxe inovações tecnológicas para várias indústrias.

【Resumo da AiBase:】
🧠 O WeKnora suporta a análise de documentos multimídia, podendo extrair conteúdo estruturado de formatos como PDF, Word e imagens.
💬 Funcionalidade de interação inteligente baseada em modelo de linguagem grande, suportando conversas em múltiplas etapas e consultas em linguagem natural.
📦 Arquitetura modular, fácil de configurar e expandir, adaptando-se às necessidades de diferentes indústrias.
Link detalhado: https://github.com/Tencent/WeKnora

11. Novidade! Informações detalhadas sobre o modelo principal da OpenAI, GPT-5, vazaram antecipadamente no GitHub

O artigo revela a explosão de desempenho do GPT-5, o layout de múltiplas versões e seu possível impacto, mostrando a nova conquista da OpenAI no campo de modelos de linguagem grandes.

【Resumo da AiBase:】
🚀 O GPT-5 é descrito como o modelo de linguagem grande mais avançado da OpenAI, com fortes capacidades de raciocínio e qualidade de código.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Jornal de IA: Alibaba lança novo modelo Qwen3-4B; Xiaohongshu lança modelo de código aberto dots.vlm1; Modelo de geração de voz MiniMax Speech 2.5 está disponível

站长之家

Este artigo é do AIbase Daily