Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos clicar para obter mais informaçõeshttps://app.aibase.com/zh

1. Step-Alpha lança o modelo de linguagem de áudio completo Step-Audio 2 mini

A Step-Alpha lançou o modelo de linguagem de áudio completo mais forte e de código aberto, Step-Audio2mini, que alcançou resultados SOTA em vários testes internacionais, demonstrando uma excelente capacidade de compreensão de áudio, reconhecimento de fala, tradução multilíngue e diálogo. O modelo utiliza um design inovador de arquitetura, superando a estrutura tradicional ASR+LLM+TTS em três etapas, permitindo a conversão direta de entrada de áudio original para saída de resposta de voz, e introduzindo raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas.

image.png

【Resumo da AiBase:】

🔥 O Step-Audio2mini obteve resultados SOTA em vários testes internacionais, superando modelos de código aberto como Qwen-Omni e Kimi-Audio.

🧠 O modelo adota uma arquitetura multimodal verdadeiramente completa, superando a estrutura tradicional ASR+LLM+TTS, oferecendo um processamento de áudio mais simples e de baixa latência.

💡 Introduziu raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas como emoção, tom de voz e música.

Link detalhado: https://github.com/stepfun-ai/Step-Audio2

2. Novas regras de conteúdo AI entram em vigor em 1º de setembro! Não identificar é ilegal, criadores de conteúdo enfrentam emergência

O "Método de Identificação de Conteúdo Gerado e Sintetizado por Inteligência Artificial" entra em vigor em 1º de setembro, marcando uma nova fase na governança de conteúdo AI na China, com regulamentação e padronização. As novas regras exigem que todo conteúdo gerado por IA seja identificado explicitamente e implicitamente, aumentando a transparência da informação e prevenindo a disseminação de informações falsas.

image.png

【Resumo da AiBase:】

✅ A identificação explícita exige que o conteúdo gerado por IA seja claramente marcado em texto, imagens, vídeos e áudios, quebrando o "feitiço de invisibilidade" do conteúdo AI.

🔍 A identificação implícita embute metadados através de tecnologia de impressão digital, melhorando a rastreabilidade e a capacidade de supervisão do conteúdo.

⚖️ As consequências de violação são graves, incluindo limitação de fluxo, correção, remoção e risco legal, promovendo o desenvolvimento regular da indústria de IA.

3. Meituan lança modelo de linguagem grande de código aberto LongCat: visa capacitar desenvolvedores e acelerar a implementação de aplicações de IA

O modelo de linguagem grande de código aberto LongCat lançado pelo Meituan possui fortes capacidades técnicas, realizando desempenho computacional eficiente por meio da arquitetura inovadora de especialistas mistos, e se destacando em vários testes de referência, fornecendo aos desenvolvedores ferramentas poderosas.

image.png

【Resumo da AiBase:】

🧠 O LongCat-Flash possui 56 bilhões de parâmetros e adota uma arquitetura de especialistas mistos (MoE), ativando dinamicamente parte dos parâmetros para otimizar a eficiência computacional.

🚀 Suporta mais de 100 tokens por segundo de capacidade de inferência, possuindo baixa latência e alta escalabilidade.

📊 Demonstra desempenho excepcional em tarefas como MMLU e raciocínio matemático, mostrando seu potencial nas aplicações práticas.

Link detalhado: https://longcat.chat/

4. Laboratório de IA de Xangai lança modelo multimodal InternVL3.5, "Shu Shen Wan Xiang"

O Laboratório de IA de Xangai lançou o modelo multimodal InternVL3.5, que realizou uma melhoria abrangente nas capacidades de raciocínio, eficiência de implantação e capacidade geral por meio de técnicas inovadoras de aprendizado reforçado cascata, roteamento de resolução visual dinâmica e arquitetura de implantação desacoplada. O modelo se destacou em vários testes de referência, superando modelos principais como GPT-5 e Claude-3.7-Sonnet.

image.png

【Resumo da AiBase:】

✨ O InternVL3.5 adota um framework de aprendizado reforçado cascata, melhorando significativamente o desempenho de raciocínio.

🖼️ O modelo suporta várias resoluções visuais e otimiza a velocidade de resposta.

🚀 Oferece modelos com diferentes tamanhos de parâmetros, atendendo a cenários com diferentes necessidades de recursos.

Link detalhado: https://github.com/OpenGVLab/InternVL

5. Tencent ARC lança modelo de áudio AudioStory: gera áudio longo com modelo de linguagem grande

O modelo AudioStory lançado pela equipe do Tencent ARC combina modelos de linguagem grande e tecnologia de geração de áudio, capaz de gerar áudio narrativo estruturado e com consistência temporal. O modelo demonstra excelentes habilidades de seguir instruções e qualidade de áudio, adequando-se a diversos cenários como dublagem de vídeo e geração de áudio longo.

image.png

【Resumo da AiBase:】

🎧 O AudioStory é um modelo de geração de áudio narrativo longo baseado em modelo de linguagem grande, capaz de lidar com várias tarefas de áudio.

📊 O modelo possui forte capacidade de seguir instruções, podendo gerar narrativas audiovisuais coesas, melhorando a experiência do usuário.

🛠️ A equipe já liberou código de inferência e apresentou vários casos de aplicação, demonstrando suas vantagens em dublagem de vídeo e geração de áudio longo.

Link detalhado: https://github.com/TencentARC/AudioStory

6. OpenAI lança surpreendentemente o GPT-realtime! A revolução da IA de voz chegou, a interação entre humano e máquina é difícil de distinguir

O modelo de voz GPT-realtime da OpenAI realizou grandes avanços em fluidez natural e expressão emocional, capaz de simular com precisão o tom, oscilações emocionais e variações de velocidade de fala humana. O modelo não apenas possui capacidade de processamento multimodal, mas também pode ajustar dinamicamente o estilo de voz para atender às necessidades de diferentes cenários, trazendo mudanças revolucionárias para a interação de voz de IA.

image.png

【Resumo da AiBase:】

🚀 O GPT-realtime realiza uma experiência de interação de voz natural sem precedentes, reproduzindo com precisão detalhes da voz humana.

🧠 O modelo possui capacidade de processamento multimodal, analisando e respondendo combinando informações de imagem e áudio.

💡 Suporta troca de estilos de voz, atendendo às necessidades de interação de voz personalizada em diferentes cenários.

7. Meta e UCSD lançam DeepConf: a precisão da inferência da IA atinge 99,9%, o custo de computação cai 85%

A tecnologia DeepConf, desenvolvida em colaboração pela Meta e pela Universidade da Califórnia em San Diego (UCSD), atingiu uma taxa de precisão de 99,9% em tarefas complexas de inferência, reduzindo o consumo de recursos computacionais em 84,7%. A tecnologia introduz mecanismos de "confiança", permitindo que a IA ajuste dinamicamente suas estratégias de resolução de problemas, aumentando assim a eficiência e a precisão da inferência.

image.png

【Resumo da AiBase:】

🔍 A tecnologia DeepConf atinge uma taxa de precisão de 99,9% em tarefas de inferência complexas.

💡 O consumo de recursos computacionais foi reduzido em 84,7%, reduzindo significativamente os custos de operação.

🚀 Com o mecanismo de "confiança", a IA pode ajustar dinamicamente suas estratégias de resolução de problemas, melhorando a eficiência da inferência.

Link detalhado: https://arxiv.org/abs/2508.15260

8. Musk admite que a biblioteca de código da xAI foi roubada, antigo funcionário vai para a OpenAI!

Musk admitiu que a biblioteca de código da xAI foi roubada, e o ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais e ir para a OpenAI, causando ampla atenção na indústria tecnológica.

image.png

【Resumo da AiBase:】

💻 O ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais da xAI e ir para a OpenAI.

🔒 A xAI pediu ao tribunal para proibir Li de trabalhar na OpenAI e devolver os dados roubados.

🚀 Antes de deixar a empresa, Li sacou cerca de 7 milhões de dólares, possivelmente economizando centenas de milhões de dólares em custos de pesquisa e desenvolvimento para a OpenAI.

9. Equipe Qwen da Alibaba lança quadro de automação GUI da próxima geração Mobile-Agent-v3 e GUI-Owl

A equipe Qwen da Alibaba lançou dois produtos revolucionários — Mobile-Agent-v3 e GUI-Owl — com o objetivo de resolver os desafios da automação de interface gráfica (GUI). Essas ferramentas melhoram a capacidade de compreensão e execução de tarefas por meio de modelos multimodais e cooperação entre agentes, demonstrando uma forte capacidade de conclusão de tarefas em múltiplas plataformas, marcando um grande progresso da Alibaba no campo de automação GUI geral.

image.png

【Resumo da AiBase:】

🧠 O GUI-Owl é um modelo de agente multimodal lançado pela Alibaba, integrando capacidades de percepção, raciocínio e execução, adaptando-se a ambientes GUI complexos.

🤖 O framework Mobile-Agent-v3 realiza cooperação entre agentes, melhorando a eficiência da execução de tarefas por meio de planejamento atualizado dinamicamente.

📊 Esses dois produtos se destacaram nos testes de benchmark de automação GUI, marcando uma importante conquista da Alibaba no campo da automação.

Link detalhado: https://arxiv.org/abs/2508.15144

10. Microsoft lança Copilot Labs, primeiro ferramenta experimental "Copilot Expressão de Áudio" disponível

A Microsoft lançou um novo centro experimental de IA chamado Copilot Labs, com o objetivo de convidar os usuários a participarem da inovação e desenvolvimento da IA. Sua primeira ferramenta é a "Expressão de Áudio do Copilot", que pode converter texto escrito em voz natural e fluida, com suporte a modos emocionais e narrativos, dando aos usuários um alto grau de controle.

image.png

【Resumo da AiBase:】

🌟 O Copilot Labs é uma plataforma que convida os usuários a participarem da inovação da IA, marcando a expansão adicional da Microsoft no campo da IA.

🔊 "Expressão de Áudio do Copilot" é a primeira ferramenta experimental, capaz de converter texto em voz natural, com suporte a modos emocionais e narrativos.

🌐 Essa ferramenta está disponível gratuitamente em todo o mundo, mas algumas funcionalidades requerem login na conta Microsoft e assinatura do Copilot Pro.

Link detalhado: https://copilot.microsoft.com/labs/experiments/audio-expression