Boletim Diário de IA: Integração completa do Kwai AI com o DeepSeek-R1; Baidu lança os grandes modelos Wenxin 4.5 e X1; Equipe de grandes modelos da Xiaomi ocupa o topo do ranking MMAU de raciocínio de áudio

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais destaques do campo da IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e conhecer os aplicativos inovadores de produtos de IA.

Novos produtos de IA clique para saber mais: https://top.aibase.com/

1、Integração completa do Kuaishou Keling AI com DeepSeek-R1; versão DeepSeek Inspiration já disponível

O Keling AI, da Kuaishou, recentemente integrou-se completamente ao DeepSeek-R1, oferecendo aos usuários uma conveniência significativa na geração de vídeos e imagens. Com o DeepSeek-R1, os usuários podem facilmente transformar sua inspiração em prompts profissionais, reduzindo a barreira à criação e aumentando a eficiência. Além disso, a versão DeepSeek Inspiration funciona em conjunto com o banco de dados de palavras-chave inspiradoras do Keling AI, ajudando os usuários a controlar melhor os detalhes do vídeo, permitindo que até mesmo usuários comuns criem conteúdo de alta qualidade. Essas inovações permitem que o Keling AI mantenha sua posição de liderança no setor.

【Resumo AiBase:】
🌟 O Kuaishou Keling AI integra-se completamente ao DeepSeek-R1, ajudando os usuários a transformar sua inspiração em prompts profissionais.
🔥 O Keling AI continua a ser atualizado e, após a integração com o DeepSeek-R1, reduz ainda mais a barreira à criação.
🎬 A versão DeepSeek Inspiration e o "banco de dados de palavras-chave inspiradoras" trabalham em conjunto para melhorar a capacidade dos usuários de controlar os detalhes do vídeo.

2、Baidu lança os grandes modelos Wenxin 4.5 e X1; preços reduzidos chamam a atenção

Os mais recentes grandes modelos de linguagem da Baidu, Wenxin 4.5 e X1, marcam um avanço significativo na compreensão multimodal e no raciocínio lógico. O Wenxin 4.5, com sua vantagem de preço significativa e desempenho excepcional, supera o GPT-4.5, atraindo a atenção de muitos desenvolvedores. O X1, por sua vez, concentra-se em perguntas e respostas de conhecimento em chinês e criação literária, possuindo fortes capacidades de raciocínio e funcionalidades multimodais.

【Resumo AiBase:】
💡 O Wenxin 4.5 é o primeiro grande modelo multimodal nativo da Baidu, com desempenho superior ao GPT-4.5, e o preço da chamada da API é apenas 1% do último.
🧠 O grande modelo de linguagem Wenxin X1 concentra-se em perguntas e respostas de conhecimento em chinês e raciocínio lógico, possuindo capacidades de cadeia de pensamento longa e multimodais, podendo entender e gerar imagens.
💰 Os preços de entrada e saída do Wenxin 4.5 e X1 são extremamente competitivos, marcando uma forte presença da Baidu no campo dos grandes modelos de linguagem.

3、Equipe de grandes modelos da Xiaomi atinge o topo da classificação MMAU de raciocínio de áudio, inspirada pelo DeepSeek-R1

A equipe de grandes modelos da Xiaomi fez progressos significativos no campo do raciocínio de áudio, usando algoritmos de aprendizado por reforço para aumentar com sucesso a precisão do modelo para 64,5%, classificando-se entre os melhores na classificação MMAU, um benchmark internacionalmente reconhecido. A pesquisa da equipe mostra que o mecanismo de feedback em tempo real do aprendizado por reforço é mais eficaz no treinamento do modelo, e a tecnologia relevante foi de código aberto, promovendo pesquisas adicionais no meio acadêmico e na indústria.

【Resumo AiBase:】
🔍 A equipe de grandes modelos da Xiaomi fez uma descoberta usando algoritmos de aprendizado por reforço no campo do raciocínio de áudio, atingindo uma precisão de 64,5%.
📈 O conjunto de avaliação MMAU é um importante padrão para a capacidade de raciocínio de áudio; atualmente, a precisão de especialistas humanos é de 82,23%.
💡 Os resultados da pesquisa mostram que o mecanismo de feedback em tempo real do aprendizado por reforço é mais eficaz no treinamento do modelo; pesquisas futuras ainda precisam de exploração aprofundada.
Link para detalhes: https://github.com/xiaomi-research/r1-aqa

4、DingTalk lança assistente de atendimento ao cliente de IA; pode ser integrado automaticamente ao site da empresa, contas oficiais, etc.

Em 17 de março de 2025, o DingTalk lançou um assistente de atendimento ao cliente de IA para melhorar a eficiência do atendimento ao cliente das empresas. Este recurso pode ser integrado automaticamente ao site da empresa e contas oficiais, suporta conversas de várias rodadas, entende precisamente as necessidades do usuário e fornece respostas profissionais. Desde seu lançamento, mais de 700 empresas o integraram, oferecendo serviço online 24 horas por dia, 7 dias por semana, com resposta rápida e implantação em várias plataformas, facilitando muito a comunicação entre empresas e usuários.

【Resumo AiBase:】
💡 O assistente de atendimento ao cliente de IA pode ser integrado automaticamente ao site e contas oficiais, melhorando a capacidade de serviço das empresas.
🛠️ Com apenas três etapas de configuração, as empresas podem lançar rapidamente o assistente de IA, simplificando a construção do sistema de conhecimento.
🌐 Suporta implantação em várias plataformas, permitindo que as empresas forneçam serviços aos usuários por meio de vários canais.

5、Tecnologia de conversão de efeitos de imagem LBM: remova figurantes com um clique e ajuste a iluminação

LBM (correspondência de ponte latente) é uma ferramenta de processamento de imagem desenvolvida pela equipe gojasper que pode realizar eficientemente a conversão de efeitos de imagem. Não apenas possui uma poderosa capacidade de remoção de objetos, permitindo que os usuários removam facilmente elementos desnecessários de fotos, mas também pode ajustar a iluminação de forma flexível para criar o clima ideal. O conceito inovador do LBM está na operação do espaço latente, tornando a edição de imagens mais simples e eficiente, adequada para entusiastas da fotografia e profissionais.

【Resumo AiBase:】
🖌️ O LBM possui uma poderosa capacidade de remoção de objetos; os usuários podem remover elementos de distração de fotos com apenas um clique, simplificando o processo de edição de imagens.
☀️ A ferramenta suporta ajuste de iluminação; os usuários podem criar um efeito ensolarado em fotos tiradas em dias nublados, melhorando o apelo visual das fotos.
🔧 O LBM tem um desempenho excepcional em várias tarefas de conversão de imagens, como estimativa de normais e profundidade, mostrando seu amplo potencial de aplicação e escalabilidade.
Link para detalhes: https://top.aibase.com/tool/lbm

6、Anthropic lançará o recurso Harmony: permitindo que assistentes de IA acessem arquivos locais sem problemas

A Anthropic está desenvolvendo um novo recurso chamado Harmony, que visa integrar o diretório de arquivos locais ao ambiente de trabalho do Claude. Essa inovação permitirá que os usuários interajam com os arquivos de forma mais suave; o assistente de IA pode ler, indexar e analisar diretamente o conteúdo do diretório. O Harmony não apenas suporta análise e modificação de arquivos, mas também fornece uma função de pesquisa baseada em palavras-chave, mostrando o poderoso potencial de um assistente de codificação de IA.

【Resumo AiBase:】
✅ O recurso Harmony permitirá que os usuários acessem arquivos locais sem problemas, melhorando a capacidade de interação da IA.
🔍 O Claude identificou com sucesso várias vulnerabilidades de segurança de código nos testes, mostrando sua forte capacidade de análise.
🧭 A Anthropic também está desenvolvendo o recurso Compass, que pode suportar pesquisas profundas e integração de informações.

7、Modelo de super-resolução de imagem de código aberto Thera: pode melhorar a nitidez da imagem, tornando o desfoque obsoleto

Thera é um modelo de super-resolução de código aberto desenvolvido pela ETH Zurich e pela Universidade de Zurique que pode melhorar a nitidez da imagem em qualquer múltiplo. Não apenas pode restaurar a vitalidade de fotos desfocadas, mas também, por meio de um modelo de observação física embutido, reduz a distorção da imagem e apresenta detalhes mais naturais.

【Resumo AiBase:】
✨ O Thera suporta ampliação de super-resolução de qualquer escala; os usuários podem personalizar o múltiplo de ampliação para lidar de forma flexível com várias necessidades.
🔍 Modelo de observação física embutido, simulando o processo de formação de imagens reais, reduzindo a distorção e apresentando detalhes mais realistas.
🌍 Como um projeto de código aberto, o Thera é fornecido sob a licença Apache-2.0 para promover o compartilhamento e o desenvolvimento de tecnologia; modelos pré-treinados são fornecidos para facilitar o uso pelos usuários.
Link para detalhes: https://top.aibase.com/tool/thera

8、O recurso de remoção de marcas d'água de imagens do Google Gemini 2.0 Flash levanta preocupações sobre direitos autorais

O novo modelo Google Gemini 2.0 Flash gerou controvérsia sobre a remoção de marcas d'água de imagens, especialmente em relação ao conteúdo de bancos de imagens conhecidos como Getty Images. Embora o modelo tenha um desempenho excepcional na geração e edição de imagens, a falta de restrições de uso levanta preocupações sobre direitos autorais. O Gemini 2.0 Flash parece ser mais poderoso, mas, de acordo com a lei de direitos autorais dos EUA, a remoção de marcas d'água sem consentimento ainda pode ser considerada ilegal.

【Resumo AiBase:】
🚫 O Gemini 2.0 Flash pode remover marcas d'água de imagens; poderoso, mas gera controvérsia sobre direitos autorais.
💬 Outros modelos de IA, como Claude 3.7 Sonnet e GPT-4o, recusam-se a remover marcas d'água, considerando isso antiético e possivelmente ilegal.
⚖️ De acordo com a lei de direitos autorais dos EUA, a remoção de marcas d'água sem o consentimento do proprietário original geralmente é considerada ilegal; o Google não respondeu às perguntas a tempo.

9、Cohere lança o modelo de IA Command A; duas GPUs são suficientes para operação eficiente, reduzindo o custo de implantação da empresa em 50%

O modelo Command A, lançado pela Cohere, quebra as barreiras tradicionais da IA de alto desempenho com sua baixa necessidade de hardware de apenas duas GPUs e economia de custos de até 50%. Seu design de 1110 bilhões de parâmetros, combinado com uma arquitetura Transformer otimizada, permite que as empresas aproveitem janelas de contexto extra longas e suporte para vários idiomas ao lidar com tarefas complexas.

【Resumo AiBase:】
💻 O modelo Command A requer apenas duas GPUs para operação eficiente, reduzindo significativamente as necessidades de hardware das empresas.
🌍 Suporta até 23 idiomas e dialetos regionais, ajudando as empresas a expandir seus mercados globais.
💰 O custo de implantação privada é reduzido em até 50%, oferecendo às empresas vantagens financeiras significativas.
Link para detalhes: https://huggingface.co/CohereForAI/c4ai-command-a-03-2025

10、Primeiro framework de desenvolvimento de agente doméstico! A comunidade Cangjie lança o Cangjie Magic, com suporte nativo para todas as plataformas, incluindo Harmony!

O Cangjie Magic é um framework inovador de desenvolvimento de agentes, baseado na linguagem de programação Cangjie desenvolvida pela Huawei, com o objetivo de remodelar a maneira como os agentes são desenvolvidos. O framework, por meio de sua arquitetura única Agent DSL, suporte nativo ao protocolo de comunicação MCP e mecanismo de agendamento inteligente, fornece uma gestão abrangente do ciclo de vida do agente.

【Resumo AiBase:】
🛠️ Arquitetura Agent DSL exclusiva, implementando programação declarativa para modelagem de agentes, melhorando a eficiência do desenvolvimento.
🌐 Suporte nativo ao protocolo de comunicação MCP, garantindo comunicação e cooperação eficientes entre agentes.
📱 Prevê-se que a capacidade de chamada de agente para Android e iOS será implementada no terceiro trimestre, expandindo os cenários de aplicativos móveis.
Link para detalhes: https://gitcode.com/Cangjie-TPC/CangjieMagic

11、Executivo da OpenAI prevê: a IA superará os programadores humanos até o final de 2025

Em um podcast recente, o diretor de produto da OpenAI, Kevin Vill, disse que a inteligência artificial deve superar os programadores humanos até o final de 2025, especialmente em testes de referência de codificação. Ele destacou o rápido progresso dos modelos de codificação de IA e mencionou que os modelos avançados da Anthropic e da OpenAI estão impulsionando a automação da codificação. Com o aumento da capacidade de raciocínio, o desempenho da IA na programação também está melhorando continuamente; no futuro, quase todo o código pode ser gerado por IA.

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Boletim Diário de IA: Integração completa do Kwai AI com o DeepSeek-R1; Baidu lança os grandes modelos Wenxin 4.5 e X1; Equipe de grandes modelos da Xiaomi ocupa o topo do ranking MMAU de raciocínio de áudio

站长之家

Este artigo é do AIbase Daily