Diário de IA: Novas regras de conteúdo de IA entram em vigor; Meituan lança modelo de linguagem de código aberto LongCat; Step apresenta o modelo de linguagem de áudio Step-Audio 2 mini

Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos clicar para obter mais informações：https://app.aibase.com/zh

1. Step-Alpha lança o modelo de linguagem de áudio completo Step-Audio 2 mini

A Step-Alpha lançou o modelo de linguagem de áudio completo mais forte e de código aberto, Step-Audio2mini, que alcançou resultados SOTA em vários testes internacionais, demonstrando uma excelente capacidade de compreensão de áudio, reconhecimento de fala, tradução multilíngue e diálogo. O modelo utiliza um design inovador de arquitetura, superando a estrutura tradicional ASR+LLM+TTS em três etapas, permitindo a conversão direta de entrada de áudio original para saída de resposta de voz, e introduzindo raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas.

【Resumo da AiBase:】
🔥 O Step-Audio2mini obteve resultados SOTA em vários testes internacionais, superando modelos de código aberto como Qwen-Omni e Kimi-Audio.
🧠 O modelo adota uma arquitetura multimodal verdadeiramente completa, superando a estrutura tradicional ASR+LLM+TTS, oferecendo um processamento de áudio mais simples e de baixa latência.
💡 Introduziu raciocínio em cadeia e otimização conjunta com aprendizado por reforço, melhorando a compreensão e a capacidade de resposta natural para informações paralinguísticas como emoção, tom de voz e música.
Link detalhado: https://github.com/stepfun-ai/Step-Audio2

2. Novas regras de conteúdo AI entram em vigor em 1º de setembro! Não identificar é ilegal, criadores de conteúdo enfrentam emergência

O "Método de Identificação de Conteúdo Gerado e Sintetizado por Inteligência Artificial" entra em vigor em 1º de setembro, marcando uma nova fase na governança de conteúdo AI na China, com regulamentação e padronização. As novas regras exigem que todo conteúdo gerado por IA seja identificado explicitamente e implicitamente, aumentando a transparência da informação e prevenindo a disseminação de informações falsas.

【Resumo da AiBase:】
✅ A identificação explícita exige que o conteúdo gerado por IA seja claramente marcado em texto, imagens, vídeos e áudios, quebrando o "feitiço de invisibilidade" do conteúdo AI.
🔍 A identificação implícita embute metadados através de tecnologia de impressão digital, melhorando a rastreabilidade e a capacidade de supervisão do conteúdo.
⚖️ As consequências de violação são graves, incluindo limitação de fluxo, correção, remoção e risco legal, promovendo o desenvolvimento regular da indústria de IA.

3. Meituan lança modelo de linguagem grande de código aberto LongCat: visa capacitar desenvolvedores e acelerar a implementação de aplicações de IA

O modelo de linguagem grande de código aberto LongCat lançado pelo Meituan possui fortes capacidades técnicas, realizando desempenho computacional eficiente por meio da arquitetura inovadora de especialistas mistos, e se destacando em vários testes de referência, fornecendo aos desenvolvedores ferramentas poderosas.

【Resumo da AiBase:】
🧠 O LongCat-Flash possui 56 bilhões de parâmetros e adota uma arquitetura de especialistas mistos (MoE), ativando dinamicamente parte dos parâmetros para otimizar a eficiência computacional.
🚀 Suporta mais de 100 tokens por segundo de capacidade de inferência, possuindo baixa latência e alta escalabilidade.
📊 Demonstra desempenho excepcional em tarefas como MMLU e raciocínio matemático, mostrando seu potencial nas aplicações práticas.
Link detalhado: https://longcat.chat/

4. Laboratório de IA de Xangai lança modelo multimodal InternVL3.5, "Shu Shen Wan Xiang"

O Laboratório de IA de Xangai lançou o modelo multimodal InternVL3.5, que realizou uma melhoria abrangente nas capacidades de raciocínio, eficiência de implantação e capacidade geral por meio de técnicas inovadoras de aprendizado reforçado cascata, roteamento de resolução visual dinâmica e arquitetura de implantação desacoplada. O modelo se destacou em vários testes de referência, superando modelos principais como GPT-5 e Claude-3.7-Sonnet.

【Resumo da AiBase:】
✨ O InternVL3.5 adota um framework de aprendizado reforçado cascata, melhorando significativamente o desempenho de raciocínio.
🖼️ O modelo suporta várias resoluções visuais e otimiza a velocidade de resposta.
🚀 Oferece modelos com diferentes tamanhos de parâmetros, atendendo a cenários com diferentes necessidades de recursos.
Link detalhado: https://github.com/OpenGVLab/InternVL

5. Tencent ARC lança modelo de áudio AudioStory: gera áudio longo com modelo de linguagem grande

O modelo AudioStory lançado pela equipe do Tencent ARC combina modelos de linguagem grande e tecnologia de geração de áudio, capaz de gerar áudio narrativo estruturado e com consistência temporal. O modelo demonstra excelentes habilidades de seguir instruções e qualidade de áudio, adequando-se a diversos cenários como dublagem de vídeo e geração de áudio longo.

【Resumo da AiBase:】
🎧 O AudioStory é um modelo de geração de áudio narrativo longo baseado em modelo de linguagem grande, capaz de lidar com várias tarefas de áudio.
📊 O modelo possui forte capacidade de seguir instruções, podendo gerar narrativas audiovisuais coesas, melhorando a experiência do usuário.
🛠️ A equipe já liberou código de inferência e apresentou vários casos de aplicação, demonstrando suas vantagens em dublagem de vídeo e geração de áudio longo.
Link detalhado: https://github.com/TencentARC/AudioStory

6. OpenAI lança surpreendentemente o GPT-realtime! A revolução da IA de voz chegou, a interação entre humano e máquina é difícil de distinguir

O modelo de voz GPT-realtime da OpenAI realizou grandes avanços em fluidez natural e expressão emocional, capaz de simular com precisão o tom, oscilações emocionais e variações de velocidade de fala humana. O modelo não apenas possui capacidade de processamento multimodal, mas também pode ajustar dinamicamente o estilo de voz para atender às necessidades de diferentes cenários, trazendo mudanças revolucionárias para a interação de voz de IA.

【Resumo da AiBase:】
🚀 O GPT-realtime realiza uma experiência de interação de voz natural sem precedentes, reproduzindo com precisão detalhes da voz humana.
🧠 O modelo possui capacidade de processamento multimodal, analisando e respondendo combinando informações de imagem e áudio.
💡 Suporta troca de estilos de voz, atendendo às necessidades de interação de voz personalizada em diferentes cenários.

7. Meta e UCSD lançam DeepConf: a precisão da inferência da IA atinge 99,9%, o custo de computação cai 85%

A tecnologia DeepConf, desenvolvida em colaboração pela Meta e pela Universidade da Califórnia em San Diego (UCSD), atingiu uma taxa de precisão de 99,9% em tarefas complexas de inferência, reduzindo o consumo de recursos computacionais em 84,7%. A tecnologia introduz mecanismos de "confiança", permitindo que a IA ajuste dinamicamente suas estratégias de resolução de problemas, aumentando assim a eficiência e a precisão da inferência.

【Resumo da AiBase:】
🔍 A tecnologia DeepConf atinge uma taxa de precisão de 99,9% em tarefas de inferência complexas.
💡 O consumo de recursos computacionais foi reduzido em 84,7%, reduzindo significativamente os custos de operação.
🚀 Com o mecanismo de "confiança", a IA pode ajustar dinamicamente suas estratégias de resolução de problemas, melhorando a eficiência da inferência.
Link detalhado: https://arxiv.org/abs/2508.15260

8. Musk admite que a biblioteca de código da xAI foi roubada, antigo funcionário vai para a OpenAI!

Musk admitiu que a biblioteca de código da xAI foi roubada, e o ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais e ir para a OpenAI, causando ampla atenção na indústria tecnológica.

【Resumo da AiBase:】
💻 O ex-funcionário Xuechen Li foi acusado de roubar segredos comerciais da xAI e ir para a OpenAI.
🔒 A xAI pediu ao tribunal para proibir Li de trabalhar na OpenAI e devolver os dados roubados.
🚀 Antes de deixar a empresa, Li sacou cerca de 7 milhões de dólares, possivelmente economizando centenas de milhões de dólares em custos de pesquisa e desenvolvimento para a OpenAI.

9. Equipe Qwen da Alibaba lança quadro de automação GUI da próxima geração Mobile-Agent-v3 e GUI-Owl

A equipe Qwen da Alibaba lançou dois produtos revolucionários — Mobile-Agent-v3 e GUI-Owl — com o objetivo de resolver os desafios da automação de interface gráfica (GUI). Essas ferramentas melhoram a capacidade de compreensão e execução de tarefas por meio de modelos multimodais e cooperação entre agentes, demonstrando uma forte capacidade de conclusão de tarefas em múltiplas plataformas, marcando um grande progresso da Alibaba no campo de automação GUI geral.

【Resumo da AiBase:】
🧠 O GUI-Owl é um modelo de agente multimodal lançado pela Alibaba, integrando capacidades de percepção, raciocínio e execução, adaptando-se a ambientes GUI complexos.
🤖 O framework Mobile-Agent-v3 realiza cooperação entre agentes, melhorando a eficiência da execução de tarefas por meio de planejamento atualizado dinamicamente.
📊 Esses dois produtos se destacaram nos testes de benchmark de automação GUI, marcando uma importante conquista da Alibaba no campo da automação.
Link detalhado: https://arxiv.org/abs/2508.15144

10. Microsoft lança Copilot Labs, primeiro ferramenta experimental "Copilot Expressão de Áudio" disponível

A Microsoft lançou um novo centro experimental de IA chamado Copilot Labs, com o objetivo de convidar os usuários a participarem da inovação e desenvolvimento da IA. Sua primeira ferramenta é a "Expressão de Áudio do Copilot", que pode converter texto escrito em voz natural e fluida, com suporte a modos emocionais e narrativos, dando aos usuários um alto grau de controle.

【Resumo da AiBase:】
🌟 O Copilot Labs é uma plataforma que convida os usuários a participarem da inovação da IA, marcando a expansão adicional da Microsoft no campo da IA.
🔊 "Expressão de Áudio do Copilot" é a primeira ferramenta experimental, capaz de converter texto em voz natural, com suporte a modos emocionais e narrativos.
🌐 Essa ferramenta está disponível gratuitamente em todo o mundo, mas algumas funcionalidades requerem login na conta Microsoft e assinatura do Copilot Pro.
Link detalhado: https://copilot.microsoft.com/labs/experiments/audio-expression

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Diário de IA: Novas regras de conteúdo de IA entram em vigor; Meituan lança modelo de linguagem de código aberto LongCat; Step apresenta o modelo de linguagem de áudio Step-Audio 2 mini

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias