Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.
Produtos de IA novos clicar para obter mais informações:https://app.aibase.com/zh
1. Step-Alpha lança o modelo de linguagem de áudio completo Step-Audio 2 mini
A Step-Alpha lançou o modelo de linguagem de áudio completo mais forte e de código aberto, Step-Audio2mini, que alcançou resultados SOTA em vários testes internacionais, demonstrando uma excelente capacidade de compreensão de áudio, reconhecimento de fala, tradução multilíngue e diálogo. O modelo utiliza um design inovador de arquitetura, superando a estrutura tradicional ASR+LLM+TTS em três etapas, permitindo a conversão direta de entrada de áudio original para saída de resposta de voz, e introduzindo raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas.
【Resumo da AiBase:】
🔥 O Step-Audio2mini obteve resultados SOTA em vários testes internacionais, superando modelos de código aberto como Qwen-Omni e Kimi-Audio.
🧠 O modelo adota uma arquitetura multimodal verdadeiramente completa, superando a estrutura tradicional ASR+LLM+TTS, oferecendo um processamento de áudio mais simples e de baixa latência.
💡 Introduziu raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas como emoção, tom de voz e música.
Link detalhado: https://github.com/stepfun-ai/Step-Audio2
2. Novas regras de conteúdo AI entram em vigor em 1º de setembro! Não identificar é ilegal, criadores de conteúdo enfrentam emergência
O "Método de Identificação de Conteúdo Gerado e Sintetizado por Inteligência Artificial" entra em vigor em 1º de setembro, marcando uma nova fase na governança de conteúdo AI na China, com regulamentação e padronização. As novas regras exigem que todo conteúdo gerado por IA seja identificado explicitamente e implicitamente, aumentando a transparência da informação e prevenindo a disseminação de informações falsas.
【Resumo da AiBase:】
✅ A identificação explícita exige que o conteúdo gerado por IA seja claramente marcado em texto, imagens, vídeos e áudios, quebrando o "feitiço de invisibilidade" do conteúdo AI.
🔍 A identificação implícita embute metadados através de tecnologia de impressão digital, melhorando a rastreabilidade e a capacidade de supervisão do conteúdo.
⚖️ As consequências de violação são graves, incluindo limitação de fluxo, correção, remoção e risco legal, promovendo o desenvolvimento regular da indústria de IA.
3. Meituan lança modelo de linguagem grande de código aberto LongCat: visa capacitar desenvolvedores e acelerar a implementação de aplicações de IA
O modelo de linguagem grande de código aberto LongCat lançado pelo Meituan possui fortes capacidades técnicas, realizando desempenho computacional eficiente por meio da arquitetura inovadora de especialistas mistos, e se destacando em vários testes de referência, fornecendo aos desenvolvedores ferramentas poderosas.
【Resumo da AiBase:】
🧠 O LongCat-Flash possui 56 bilhões de parâmetros e adota uma arquitetura de especialistas mistos (MoE), ativando dinamicamente parte dos parâmetros para otimizar a eficiência computacional.
🚀 Suporta mais de 100 tokens por segundo de capacidade de inferência, possuindo baixa latência e alta escalabilidade.
📊 Demonstra desempenho excepcional em tarefas como MMLU e raciocínio matemático, mostrando seu potencial nas aplicações práticas.
Link detalhado: https://longcat.chat/
4. Laboratório de IA de Xangai lança modelo multimodal InternVL3.5, "Shu Shen Wan Xiang"
O Laboratório de IA de Xangai lançou o modelo multimodal InternVL3.5, que realizou uma melhoria abrangente nas capacidades de raciocínio, eficiência de implantação e capacidade geral por meio de técnicas inovadoras de aprendizado reforçado cascata, roteamento de resolução visual dinâmica e arquitetura de implantação desacoplada. O modelo se destacou em vários testes de referência, superando modelos principais como GPT-5 e Claude-3.7-Sonnet.
【Resumo da AiBase:】
✨ O InternVL3.5 adota um framework de aprendizado reforçado cascata, melhorando significativamente o desempenho de raciocínio.
🖼️ O modelo suporta várias resoluções visuais e otimiza a velocidade de resposta.
🚀 Oferece modelos com diferentes tamanhos de parâmetros, atendendo a cenários com diferentes necessidades de recursos.
Link detalhado: https://github.com/OpenGVLab/InternVL
5. Tencent ARC lança modelo de áudio AudioStory: gera áudio longo com modelo de linguagem grande
O modelo AudioStory lançado pela equipe do Tencent ARC combina modelos de linguagem grande e tecnologia de geração de áudio, capaz de gerar áudio narrativo estruturado e com consistência temporal. O modelo demonstra excelentes habilidades de seguir instruções e qualidade de áudio, adequando-se a diversos cenários como dublagem de vídeo e geração de áudio longo.
【Resumo da AiBase:】
🎧 O AudioStory é um modelo de geração de áudio narrativo longo baseado em modelo de linguagem grande, capaz de lidar com várias tarefas de áudio.
📊 O modelo possui forte capacidade de seguir instruções, podendo gerar narrativas audiovisuais coesas, melhorando a experiência do usuário.
🛠️ A equipe já liberou código de inferência e apresentou vários casos de aplicação, demonstrando suas vantagens em dublagem de vídeo e geração de áudio longo.
Link detalhado: https://github.com/TencentARC/AudioStory
6. OpenAI lança surpreendentemente o GPT-realtime! A revolução da IA de voz chegou, a interação entre humano e máquina é difícil de distinguir
O modelo de voz GPT-realtime da OpenAI realizou grandes avanços em fluidez natural e expressão emocional, capaz de simular com precisão o tom, oscilações emocionais e variações de velocidade de fala humana. O modelo não apenas possui capacidade de processamento multimodal, mas também pode ajustar dinamicamente o estilo de voz para atender às necessidades de diferentes cenários, trazendo mudanças revolucionárias para a interação de voz de IA.
【Resumo da AiBase:】
🚀 O GPT-realtime realiza uma experiência de interação de voz natural sem precedentes, reproduzindo com precisão detalhes da voz humana.
🧠 O modelo possui capacidade de processamento multimodal, analisando e respondendo combinando informações de imagem e áudio.
💡 Suporta troca de estilos de voz, atendendo às necessidades de interação de voz personalizada em diferentes cenários.
7. Meta e UCSD lançam DeepConf: a precisão da inferência da IA atinge 99,9%, o custo de computação cai 85%
A tecnologia DeepConf, desenvolvida em colaboração pela Meta e pela Universidade da Califórnia em San Diego (UCSD), atingiu uma taxa de precisão de 99,9% em tarefas complexas de inferência, reduzindo o consumo de recursos computacionais em 84,7%. A tecnologia introduz mecanismos de "confiança", permitindo que a IA ajuste dinamicamente suas estratégias de resolução de problemas, aumentando assim a eficiência e a precisão da inferência.
【Resumo da AiBase:】
🔍 A tecnologia DeepConf atinge uma taxa de precisão de 99,9% em tarefas de inferência complexas.
💡 O consumo de recursos computacionais foi reduzido em 84,7%, reduzindo significativamente os custos de operação.
🚀 Com o mecanismo de "confiança", a IA pode ajustar dinamicamente suas estratégias de resolução de problemas, melhorando a eficiência da inferência.
Link detalhado: https://arxiv.org/abs/2508.15260
8. Musk admite que a biblioteca de código da xAI foi roubada, antigo funcionário vai para a OpenAI!
Musk admitiu que a biblioteca de código da xAI foi roubada, e o ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais e ir para a OpenAI, causando ampla atenção na indústria tecnológica.
【Resumo da AiBase:】
💻 O ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais da xAI e ir para a OpenAI.
🔒 A xAI pediu ao tribunal para proibir Li de trabalhar na OpenAI e devolver os dados roubados.
🚀 Antes de deixar a empresa, Li sacou cerca de 7 milhões de dólares, possivelmente economizando centenas de milhões de dólares em custos de pesquisa e desenvolvimento para a OpenAI.
9. Equipe Qwen da Alibaba lança quadro de automação GUI da próxima geração Mobile-Agent-v3 e GUI-Owl
A equipe Qwen da Alibaba lançou dois produtos revolucionários — Mobile-Agent-v3 e GUI-Owl — com o objetivo de resolver os desafios da automação de interface gráfica (GUI). Essas ferramentas melhoram a capacidade de compreensão e execução de tarefas por meio de modelos multimodais e cooperação entre agentes, demonstrando uma forte capacidade de conclusão de tarefas em múltiplas plataformas, marcando um grande progresso da Alibaba no campo de automação GUI geral.
【Resumo da AiBase:】
🧠 O GUI-Owl é um modelo de agente multimodal lançado pela Alibaba, integrando capacidades de percepção, raciocínio e execução, adaptando-se a ambientes GUI complexos.
🤖 O framework Mobile-Agent-v3 realiza cooperação entre agentes, melhorando a eficiência da execução de tarefas por meio de planejamento atualizado dinamicamente.
📊 Esses dois produtos se destacaram nos testes de benchmark de automação GUI, marcando uma importante conquista da Alibaba no campo da automação.
Link detalhado: https://arxiv.org/abs/2508.15144
10. Microsoft lança Copilot Labs, primeiro ferramenta experimental "Copilot Expressão de Áudio" disponível
A Microsoft lançou um novo centro experimental de IA chamado Copilot Labs, com o objetivo de convidar os usuários a participarem da inovação e desenvolvimento da IA. Sua primeira ferramenta é a "Expressão de Áudio do Copilot", que pode converter texto escrito em voz natural e fluida, com suporte a modos emocionais e narrativos, dando aos usuários um alto grau de controle.
【Resumo da AiBase:】
🌟 O Copilot Labs é uma plataforma que convida os usuários a participarem da inovação da IA, marcando a expansão adicional da Microsoft no campo da IA.
🔊 "Expressão de Áudio do Copilot" é a primeira ferramenta experimental, capaz de converter texto em voz natural, com suporte a modos emocionais e narrativos.
🌐 Essa ferramenta está disponível gratuitamente em todo o mundo, mas algumas funcionalidades requerem login na conta Microsoft e assinatura do Copilot Pro.
Link detalhado: https://copilot.microsoft.com/labs/experiments/audio-expression