Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais destaques do campo da IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e conhecer os aplicativos inovadores de produtos de IA.
Novos produtos de IA clique para saber mais: https://top.aibase.com/
1、Integração completa do Kuaishou Keling AI com DeepSeek-R1; versão DeepSeek Inspiration já disponível
O Keling AI, da Kuaishou, recentemente integrou-se completamente ao DeepSeek-R1, oferecendo aos usuários uma conveniência significativa na geração de vídeos e imagens. Com o DeepSeek-R1, os usuários podem facilmente transformar sua inspiração em prompts profissionais, reduzindo a barreira à criação e aumentando a eficiência. Além disso, a versão DeepSeek Inspiration funciona em conjunto com o banco de dados de palavras-chave inspiradoras do Keling AI, ajudando os usuários a controlar melhor os detalhes do vídeo, permitindo que até mesmo usuários comuns criem conteúdo de alta qualidade. Essas inovações permitem que o Keling AI mantenha sua posição de liderança no setor.
【Resumo AiBase:】
🌟 O Kuaishou Keling AI integra-se completamente ao DeepSeek-R1, ajudando os usuários a transformar sua inspiração em prompts profissionais.
🔥 O Keling AI continua a ser atualizado e, após a integração com o DeepSeek-R1, reduz ainda mais a barreira à criação.
🎬 A versão DeepSeek Inspiration e o "banco de dados de palavras-chave inspiradoras" trabalham em conjunto para melhorar a capacidade dos usuários de controlar os detalhes do vídeo.
2、Baidu lança os grandes modelos Wenxin 4.5 e X1; preços reduzidos chamam a atenção
Os mais recentes grandes modelos de linguagem da Baidu, Wenxin 4.5 e X1, marcam um avanço significativo na compreensão multimodal e no raciocínio lógico. O Wenxin 4.5, com sua vantagem de preço significativa e desempenho excepcional, supera o GPT-4.5, atraindo a atenção de muitos desenvolvedores. O X1, por sua vez, concentra-se em perguntas e respostas de conhecimento em chinês e criação literária, possuindo fortes capacidades de raciocínio e funcionalidades multimodais.
【Resumo AiBase:】
💡 O Wenxin 4.5 é o primeiro grande modelo multimodal nativo da Baidu, com desempenho superior ao GPT-4.5, e o preço da chamada da API é apenas 1% do último.
🧠 O grande modelo de linguagem Wenxin X1 concentra-se em perguntas e respostas de conhecimento em chinês e raciocínio lógico, possuindo capacidades de cadeia de pensamento longa e multimodais, podendo entender e gerar imagens.
💰 Os preços de entrada e saída do Wenxin 4.5 e X1 são extremamente competitivos, marcando uma forte presença da Baidu no campo dos grandes modelos de linguagem.
3、Equipe de grandes modelos da Xiaomi atinge o topo da classificação MMAU de raciocínio de áudio, inspirada pelo DeepSeek-R1
A equipe de grandes modelos da Xiaomi fez progressos significativos no campo do raciocínio de áudio, usando algoritmos de aprendizado por reforço para aumentar com sucesso a precisão do modelo para 64,5%, classificando-se entre os melhores na classificação MMAU, um benchmark internacionalmente reconhecido. A pesquisa da equipe mostra que o mecanismo de feedback em tempo real do aprendizado por reforço é mais eficaz no treinamento do modelo, e a tecnologia relevante foi de código aberto, promovendo pesquisas adicionais no meio acadêmico e na indústria.
【Resumo AiBase:】
🔍 A equipe de grandes modelos da Xiaomi fez uma descoberta usando algoritmos de aprendizado por reforço no campo do raciocínio de áudio, atingindo uma precisão de 64,5%.
📈 O conjunto de avaliação MMAU é um importante padrão para a capacidade de raciocínio de áudio; atualmente, a precisão de especialistas humanos é de 82,23%.
💡 Os resultados da pesquisa mostram que o mecanismo de feedback em tempo real do aprendizado por reforço é mais eficaz no treinamento do modelo; pesquisas futuras ainda precisam de exploração aprofundada.
Link para detalhes: https://github.com/xiaomi-research/r1-aqa
4、DingTalk lança assistente de atendimento ao cliente de IA; pode ser integrado automaticamente ao site da empresa, contas oficiais, etc.
Em 17 de março de 2025, o DingTalk lançou um assistente de atendimento ao cliente de IA para melhorar a eficiência do atendimento ao cliente das empresas. Este recurso pode ser integrado automaticamente ao site da empresa e contas oficiais, suporta conversas de várias rodadas, entende precisamente as necessidades do usuário e fornece respostas profissionais. Desde seu lançamento, mais de 700 empresas o integraram, oferecendo serviço online 24 horas por dia, 7 dias por semana, com resposta rápida e implantação em várias plataformas, facilitando muito a comunicação entre empresas e usuários.
【Resumo AiBase:】
💡 O assistente de atendimento ao cliente de IA pode ser integrado automaticamente ao site e contas oficiais, melhorando a capacidade de serviço das empresas.
🛠️ Com apenas três etapas de configuração, as empresas podem lançar rapidamente o assistente de IA, simplificando a construção do sistema de conhecimento.
🌐 Suporta implantação em várias plataformas, permitindo que as empresas forneçam serviços aos usuários por meio de vários canais.
5、Tecnologia de conversão de efeitos de imagem LBM: remova figurantes com um clique e ajuste a iluminação
LBM (correspondência de ponte latente) é uma ferramenta de processamento de imagem desenvolvida pela equipe gojasper que pode realizar eficientemente a conversão de efeitos de imagem. Não apenas possui uma poderosa capacidade de remoção de objetos, permitindo que os usuários removam facilmente elementos desnecessários de fotos, mas também pode ajustar a iluminação de forma flexível para criar o clima ideal. O conceito inovador do LBM está na operação do espaço latente, tornando a edição de imagens mais simples e eficiente, adequada para entusiastas da fotografia e profissionais.
【Resumo AiBase:】
🖌️ O LBM possui uma poderosa capacidade de remoção de objetos; os usuários podem remover elementos de distração de fotos com apenas um clique, simplificando o processo de edição de imagens.
☀️ A ferramenta suporta ajuste de iluminação; os usuários podem criar um efeito ensolarado em fotos tiradas em dias nublados, melhorando o apelo visual das fotos.
🔧 O LBM tem um desempenho excepcional em várias tarefas de conversão de imagens, como estimativa de normais e profundidade, mostrando seu amplo potencial de aplicação e escalabilidade.
Link para detalhes: https://top.aibase.com/tool/lbm
6、Anthropic lançará o recurso Harmony: permitindo que assistentes de IA acessem arquivos locais sem problemas
A Anthropic está desenvolvendo um novo recurso chamado Harmony, que visa integrar o diretório de arquivos locais ao ambiente de trabalho do Claude. Essa inovação permitirá que os usuários interajam com os arquivos de forma mais suave; o assistente de IA pode ler, indexar e analisar diretamente o conteúdo do diretório. O Harmony não apenas suporta análise e modificação de arquivos, mas também fornece uma função de pesquisa baseada em palavras-chave, mostrando o poderoso potencial de um assistente de codificação de IA.
【Resumo AiBase:】
✅ O recurso Harmony permitirá que os usuários acessem arquivos locais sem problemas, melhorando a capacidade de interação da IA.
🔍 O Claude identificou com sucesso várias vulnerabilidades de segurança de código nos testes, mostrando sua forte capacidade de análise.
🧭 A Anthropic também está desenvolvendo o recurso Compass, que pode suportar pesquisas profundas e integração de informações.
7、Modelo de super-resolução de imagem de código aberto Thera: pode melhorar a nitidez da imagem, tornando o desfoque obsoleto
Thera é um modelo de super-resolução de código aberto desenvolvido pela ETH Zurich e pela Universidade de Zurique que pode melhorar a nitidez da imagem em qualquer múltiplo. Não apenas pode restaurar a vitalidade de fotos desfocadas, mas também, por meio de um modelo de observação física embutido, reduz a distorção da imagem e apresenta detalhes mais naturais.
【Resumo AiBase:】
✨ O Thera suporta ampliação de super-resolução de qualquer escala; os usuários podem personalizar o múltiplo de ampliação para lidar de forma flexível com várias necessidades.
🔍 Modelo de observação física embutido, simulando o processo de formação de imagens reais, reduzindo a distorção e apresentando detalhes mais realistas.
🌍 Como um projeto de código aberto, o Thera é fornecido sob a licença Apache-2.0 para promover o compartilhamento e o desenvolvimento de tecnologia; modelos pré-treinados são fornecidos para facilitar o uso pelos usuários.
Link para detalhes: https://top.aibase.com/tool/thera
8、O recurso de remoção de marcas d'água de imagens do Google Gemini 2.0 Flash levanta preocupações sobre direitos autorais
O novo modelo Google Gemini 2.0 Flash gerou controvérsia sobre a remoção de marcas d'água de imagens, especialmente em relação ao conteúdo de bancos de imagens conhecidos como Getty Images. Embora o modelo tenha um desempenho excepcional na geração e edição de imagens, a falta de restrições de uso levanta preocupações sobre direitos autorais. O Gemini 2.0 Flash parece ser mais poderoso, mas, de acordo com a lei de direitos autorais dos EUA, a remoção de marcas d'água sem consentimento ainda pode ser considerada ilegal.
【Resumo AiBase:】
🚫 O Gemini 2.0 Flash pode remover marcas d'água de imagens; poderoso, mas gera controvérsia sobre direitos autorais.
💬 Outros modelos de IA, como Claude 3.7 Sonnet e GPT-4o, recusam-se a remover marcas d'água, considerando isso antiético e possivelmente ilegal.
⚖️ De acordo com a lei de direitos autorais dos EUA, a remoção de marcas d'água sem o consentimento do proprietário original geralmente é considerada ilegal; o Google não respondeu às perguntas a tempo.
9、Cohere lança o modelo de IA Command A; duas GPUs são suficientes para operação eficiente, reduzindo o custo de implantação da empresa em 50%
O modelo Command A, lançado pela Cohere, quebra as barreiras tradicionais da IA de alto desempenho com sua baixa necessidade de hardware de apenas duas GPUs e economia de custos de até 50%. Seu design de 1110 bilhões de parâmetros, combinado com uma arquitetura Transformer otimizada, permite que as empresas aproveitem janelas de contexto extra longas e suporte para vários idiomas ao lidar com tarefas complexas.
【Resumo AiBase:】
💻 O modelo Command A requer apenas duas GPUs para operação eficiente, reduzindo significativamente as necessidades de hardware das empresas.
🌍 Suporta até 23 idiomas e dialetos regionais, ajudando as empresas a expandir seus mercados globais.
💰 O custo de implantação privada é reduzido em até 50%, oferecendo às empresas vantagens financeiras significativas.
Link para detalhes: https://huggingface.co/CohereForAI/c4ai-command-a-03-2025
10、Primeiro framework de desenvolvimento de agente doméstico! A comunidade Cangjie lança o Cangjie Magic, com suporte nativo para todas as plataformas, incluindo Harmony!
O Cangjie Magic é um framework inovador de desenvolvimento de agentes, baseado na linguagem de programação Cangjie desenvolvida pela Huawei, com o objetivo de remodelar a maneira como os agentes são desenvolvidos. O framework, por meio de sua arquitetura única Agent DSL, suporte nativo ao protocolo de comunicação MCP e mecanismo de agendamento inteligente, fornece uma gestão abrangente do ciclo de vida do agente.
【Resumo AiBase:】
🛠️ Arquitetura Agent DSL exclusiva, implementando programação declarativa para modelagem de agentes, melhorando a eficiência do desenvolvimento.
🌐 Suporte nativo ao protocolo de comunicação MCP, garantindo comunicação e cooperação eficientes entre agentes.
📱 Prevê-se que a capacidade de chamada de agente para Android e iOS será implementada no terceiro trimestre, expandindo os cenários de aplicativos móveis.
Link para detalhes: https://gitcode.com/Cangjie-TPC/CangjieMagic
11、Executivo da OpenAI prevê: a IA superará os programadores humanos até o final de 2025
Em um podcast recente, o diretor de produto da OpenAI, Kevin Vill, disse que a inteligência artificial deve superar os programadores humanos até o final de 2025, especialmente em testes de referência de codificação. Ele destacou o rápido progresso dos modelos de codificação de IA e mencionou que os modelos avançados da Anthropic e da OpenAI estão impulsionando a automação da codificação. Com o aumento da capacidade de raciocínio, o desempenho da IA na programação também está melhorando continuamente; no futuro, quase todo o código pode ser gerado por IA.