Bem-vindo ao quadro de notícias do [AI Daily]! Aqui é seu guia para explorar o mundo da inteligência artificial diariamente. Todos os dias, apresentamos as principais notícias do campo da IA, focando nos desenvolvedores e ajudando você a entender as tendências tecnológicas e conhecer aplicações inovadoras de IA.

Produtos de IA frescos para saber mais:https://top.aibase.com/

1. Lançamento do PaddleOCR 3.0 da Baidu: Apreciação de OCR aumenta em 13%

A equipe da Baidu lançou a versão 3.0 do PaddleOCR, melhorando a precisão de reconhecimento de texto, suporte a múltiplos idiomas, reconhecimento de caligrafia e capacidades de análise de documentos. A nova versão adiciona suporte a hardware nacional e apresenta recursos centrais como PP-OCRv5, PP-StructureV3 e PP-ChatOCRv4.

image.png

[AiBase resumo:]

🚀 Modelo de reconhecimento de texto em todos os cenários PP-OCRv5 suporta cinco tipos de texto, com uma melhoria geral de precisão de 13%, permitindo implantação sem interrupções.

📚 Solução de análise de documentos PP-StructureV3 aprimora a detecção de layout e o reconhecimento de tabelas, apresentando excelentes resultados em várias situações de alta precisão.

🤖 Solução de compreensão de documentos inteligentes PP-ChatOCRv4 combinada com o grande modelo Wenxin, aumenta a precisão da extração de informações críticas em 15%, suportando documentos complexos.

Link detalhado: https://github.com/PaddlePaddle/PaddleOCR

2. Lançamento do Super Agente Inteligente TianGong: A Revolução do AI Office Chega, Deep Research Supera o OpenAI, com Custo de Apenas 40%!

O super agente inteligente TianGong é um assistente de inteligência artificial baseado na tecnologia autônoma Deep Research, conhecido por sua capacidade de geração de conteúdo multimodal e por ter um custo apenas 40% do OpenAI, gerando ampla discussão no mundo da comunidade de IA global.

image.png

[AiBase resumo:]

✨ O super agente inteligente TianGong utiliza uma arquitetura de multi-agentes, contendo cinco agentes especialistas e um agente geral, suportando a geração de vários tipos de conteúdo de escritório de uma vez só.

🚀 Seu modelo Deep Research tem baixo custo e alta eficiência, obtendo 82.42 pontos no teste GAIA, superando o Deep Research do OpenAI.

🌐 O framework open source e a estratégia de implantação de baixo custo tornam TianGong uma escolha ideal para pequenas e médias empresas e desenvolvedores individuais.

Link detalhado: https://mcp.so/server/skywork-super-agents/Skywork-ai

3. API Core da OpenAI Suporta MCP, Simplificando o Fluxo de Desenvolvimento de Agentes Inteligentes

A API Responses da OpenAI adicionou suporte ao MCP, reduzindo significativamente a dificuldade de integração de modelos de IA com ferramentas externas. Além disso, várias funcionalidades foram atualizadas, como geração de imagens, interpretador de código e funções de busca de arquivos otimizadas.

image.png

[AiBase resumo:]

✨ A API Responses da OpenAI suporta o protocolo MCP, permitindo que os desenvolvedores conectem ferramentas externas com poucas linhas de código.

🌟 Novas funcionalidades incluem geração de imagens, interpretador de código e capacidade de busca de arquivos otimizada, aumentando a eficiência do desenvolvimento.

🌐 O MCP tornou-se um padrão de fato para o desenvolvimento de agentes inteligentes, promovendo colaboração cruzada e flexibilidade.

4. xAI Lança API de Pesquisa em Tempo Real: Live Search, Capacitando a IA a Obter Informações em Tempo Real

A xAI lançou oficialmente a API Live Search, que permite que desenvolvedores utilizem o modelo Grok para pesquisar informações de várias fontes de dados em tempo real, aumentando significativamente a capacidade de processamento dinâmico das aplicações de IA. Esta API está atualmente em fase beta gratuita, fornecendo ferramentas poderosas para simplificar a lógica de pesquisa e integração de dados.

image.png

[AiBase resumo:]

🌟 A API Live Search suporta decisões autônomas de pesquisa, com o Grok ajustando automaticamente se é necessário buscar informações com base no contexto da conversa, sem intervenção humana.

🌐 Fornece uma ampla variedade de fontes de dados, incluindo plataformas X, páginas da web, notícias e feeds RSS, garantindo informações completas e atualizadas em tempo real.

🔧 Altamente flexível e eficiente na integração, com suporte a vários SDKs, permitindo aos desenvolvedores ajustar facilmente a URL base e a chave API para rápida implementação.

Link detalhado: https://docs.x.ai/docs/guides/live-search

5. Google Sparkify Lança Produto Experimental: Gere vídeos animados a partir de perguntas complexas em segundos, compreenda rapidamente!

O Sparkify do Google, utilizando os modelos Gemini e Veo, transforma conceitos complexos em vídeos animados intuitivos, aplicável em educação, popularização científica e criação de conteúdo.

image.png

[AiBase resumo:]

✨ Conceitos complexos apresentados de forma visual em vídeos animados, aumentando a eficiência de compreensão.

🎥 Utilizando os modelos Gemini2.5 e Veo2, gera vídeos animados de alta qualidade rapidamente.

🌍 Suporte para expansão em vários idiomas, cobrindo mais regiões e grupos populacionais no futuro.

Link detalhado: https://sparkify.withgoogle.com/explore

6. Mistral Retorna ao Campo Open Source: Lança Modelo de IA de Código Altamente Eficiente Devstral

A Mistral AI lançou o novo modelo de linguagem open source Devstral, projetado especificamente para o desenvolvimento de software inteligente, oferecendo excelente desempenho e compatibilidade com execução local, destacando o poder da colaboração da comunidade open source.

image.png

[AiBase resumo:]

Devstral possui 24 milhões de parâmetros e é licenciado sob a licença Apache2.0, permitindo implantação e comercialização livre.

Excelente desempenho, superando a maioria dos modelos fechossourced no teste SWE-Bench, adequado para aplicativos locais e privados.

Como o último avanço do Codestral Series, o Devstral suporta entendimento de contexto transfile, ideal para tarefas de desenvolvimento de software complexas.

7. Video Ocean Lança Ferramenta de Geração de Vídeos em 2K/4K HDR, Preço Explosivo por Todo o Mercado

No dia 21 de maio, a Tech Luchuan lançou a nova ferramenta de geração de vídeo AI, Video Ocean, que permite a criação rápida de vídeos de alta qualidade com diversos efeitos e funcionalidades. Com preço baixo e totalmente gratuito, a ferramenta causou uma onda de criatividade.

image.png

[AiBase resumo:]

✨ Suporta a geração de vídeos em 2K/4K HDR de alta qualidade em 5-10 segundos, adequado para criação em várias situações.

🎥 Fornece uma vasta biblioteca de templates e efeitos, como Laugh, Cakeify, etc., permitindo que usuários iniciantes façam vídeos profissionais com facilidade.

💰 O preço é apenas 1/10 do que o Lingling 2.0, completamente gratuito, recebendo avaliações positivas de várias faixas de usuários.

8. Google Lança Nova Ferramenta SynthID Detector, Ajuda a Identificar Conteúdo Gerado por IA

O Google lançou a nova ferramenta chamada SynthID Detector, projetada para ajudar os usuários a detectar se o conteúdo foi gerado por suas ferramentas de IA. Essa ferramenta pode identificar conteúdo gerado por IA e destacar partes com marcas d'água SynthID, estando atualmente disponível para testadores iniciais.

image.png

[AiBase resumo:]

🌟 A SynthID Detector é uma nova ferramenta para identificar conteúdo gerado por IA, suportando imagens, texto, áudio e vídeo.

🔍 Esta ferramenta pode escanear automaticamente o conteúdo enviado, procurando e destacando marcas d'água SynthID.

🚀 Atualmente disponível apenas para testadores iniciais, sendo gradualmente expandido para mais usuários no futuro.

Link detalhado: https://blog.google/technology/ai/google-synthid-ai-content-detector/

9. O Rápido Crescimento do Ferramental de Notas da Google NotebookLM

O assistente de gestão de conhecimentos da Google, NotebookLM, teve um aumento de 56% no número de visitas mensais nos últimos seis meses, ganhando destaque por suas funções inovadoras como "visão em áudio", suporte a múltiplos idiomas e aplicabilidade diversificada.

image.png

[AiBase resumo:]

🚀 O NotebookLM viu um aumento de 56% no número de visitas mensais, tornando-se um destaque no campo de aplicativos de IA.

🌐 Suporta a geração de conteúdo de podcast em mais de 50 idiomas, eliminando barreiras linguísticas e melhorando a experiência do usuário.

📚 Ideal para estudantes, pesquisadores e criadores de conteúdo, útil tanto em contextos acadêmicos quanto de entretenimento.

10. SiliconFlow Atualiza API de Modelos de Inferência DeepSeek-R1, Suportando Tamanho de Contexto de até 128K

A SiliconFlow melhorou significativamente sua API de modelos de inferência, aumentando consideravelmente o tamanho máximo do contexto para 128K, aprimorando a capacidade de inferência e a qualidade da saída do modelo. Introduziu também funcionalidades independentes para controle da cadeia de pensamento e comprimento da resposta, permitindo que os desenvolvedores ajustem com mais flexibilidade o desempenho do modelo.

image.png

[AiBase resumo:]

🚀 Suporte para tamanho de contexto máximo de 128K, aumentando significativamente a profundidade de pensamento e a integridade da saída do modelo.

🔍 Introdução de funcionalidades independentes para controle de cadeia de pensamento e comprimento da resposta, melhorando o controle preciso do comportamento do modelo pelos desenvolvedores.

⚠️ Quando o limite de comprimento for atingido, a saída será truncada e a razão será marcada, garantindo transparência no uso.

Link detalhado: https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning

11. Google DeepMind Lança Novo Modelo de Geração de Música Lyria2, Apoiando Criação em Tempo Real

O Lyria2 é o mais recente modelo de geração de música lançado pela Google DeepMind, com alta fidelidade de som, função de interação em tempo real e adaptabilidade a vários estilos musicais, trazendo uma revolução na criação musical.

image.png

[AiBase resumo:]

🎶 Alta Fidelidade: Gera áudio estéreo de 48kHz, capturando detalhes musicais com precisão, adequado para produção musical profissional e projetos comerciais.

⚡ Interativa em Tempo Real: A função Lyria RealTime permite ajustar estilo, ritmo, etc., imediatamente, estimulando a criatividade.

🌐 Suporte Multimodal: Integrado à ferramenta Music AI Sandbox, suporta entrada de texto, partituras ou trechos de áudio, abrangendo vários estilos musicais.

Link detalhado: https://deepmind.google/models/lyria/