Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes do setor de IA, focando nos desenvolvedores, ajudando-o a compreender as tendências tecnológicas e conhecer as aplicações inovadoras de produtos de IA.

Produtos de IA novos Clique para saber mais:https://app.aibase.com/zh

1. O Gemini 3.0 Pro da Google começa a ser distribuído em pequena escala: capacidade de raciocínio aprimorada, lançamento oficial pode ocorrer até o final do mês

A equipe do DeepMind da Google começou a distribuir o modelo Gemini 3.0 Pro para alguns usuários. Esse modelo tem melhorias nas capacidades de raciocínio e processamento multimídia e está planejado para ser oficialmente lançado no final deste mês.

image.png

【Resumo da AiBase:】

🧠 O Gemini 3.0 Pro introduz uma arquitetura de raciocínio Deep Think, melhorando a capacidade de lidar com tarefas complexas de múltiplas etapas.

🌐 Suporta vários formatos de entrada, como texto, imagem, áudio e vídeo, podendo gerar código completo de front-end.

🚀 A Google planeja lançar uma versão leve chamada Flash, atendendo às necessidades de dispositivos móveis e cálculo nas bordas.

2. Baidu lança o modelo PaddleOCR-VL, líder mundial na análise de documentos, redefinindo o cenário da tecnologia OCR!

O modelo PaddleOCR-VL lançado pela Baidu se destaca na área de análise de documentos, tornando-se um novo padrão na tecnologia OCR graças à sua eficiência, suporte a múltiplos idiomas e alta precisão na identificação.

image.png

【Resumo da AiBase:】

🌍 Suporta 109 idiomas, adequado para várias tarefas de processamento de documentos.

⚙️ Parâmetros principais são apenas 0,9B, permitindo cálculos eficientes e identificação precisa.

🚀 A velocidade de inferência foi significativamente melhorada, superando outros modelos principais.

3. A empresa de vídeos de IA Aishitech completa financiamento de 100 milhões de yuans na rodada B+: ARR ultrapassa 40 milhões de dólares, usuários acima de 100 milhões

A Aishitech alcançou avanços notáveis no campo de geração de vídeos de IA, completando o financiamento de 100 milhões de yuans na rodada B+ e atingindo marcos importantes, como ultrapassar o ARR de 40 milhões de dólares e ter mais de 100 milhões de usuários registrados. Sua estratégia de produto e inovação tecnológica oferecem forte competitividade ao mercado.

image.png

【Resumo da AiBase:】

🚀 A Aishitech completou o financiamento B+ de 100 milhões de yuans, mostrando o reconhecimento e apoio do mercado de capital.

📈 Receita anual recorrente (ARR) ultrapassou 40 milhões de dólares, com mais de 100 milhões de usuários.

💡 Inovações tecnológicas contínuas, a versão PixVerse V5 melhora a eficiência de geração e a qualidade dos vídeos, introduzindo a função de assistente de criação por Agent.

4. Anthropic lança a funcionalidade 'skills' do Claude: aumentando a eficiência do trabalho com IA

A Anthropic lançou uma nova funcionalidade chamada 'skills' para o Claude AI, visando aumentar a utilidade da IA em cenários de trabalho. Essa funcionalidade fornece instruções, scripts e recursos em formato de pasta, permitindo que o Claude processe tarefas específicas de forma mais eficiente, como documentos Excel ou diretrizes da marca. Os usuários também podem criar habilidades personalizadas e usá-las em várias plataformas. Essa funcionalidade corresponde ao AgentKit da OpenAI, marcando um passo adiante na indústria de IA em direção à praticidade.

image.png

【Resumo da AiBase:】

🌟 A Anthropic lançou a funcionalidade 'skills' do Claude, aumentando a utilidade da IA no trabalho.

🛠️ Os usuários podem criar habilidades personalizadas, para que o Claude se adapte melhor a cenários específicos de trabalho.

🚀 Essa iniciativa coincide com os novos recursos lançados pela OpenAI, como o AgentKit, indicando que a indústria de IA continua se movendo em direção à praticidade.

5. A Pinterest lança ferramenta de controle de conteúdo de IA: os usuários podem personalizar a redução de imagens geradas por IA

A Pinterest lançou uma nova ferramenta de controle de conteúdo, permitindo que os usuários limitem a proporção de conteúdo gerado por IA em sua linha do tempo, em resposta à insatisfação dos usuários. A plataforma introduziu rótulos de modificação de IA e ofereceu configurações escolhidas pelos usuários, tentando equilibrar inovação de IA e experiência do usuário.

image.png

【Resumo da AiBase:】

🖼️ Os usuários podem personalizar a redução da exibição de imagens geradas por IA.

🤖 A Pinterest introduziu rótulos de modificação de IA para identificar conteúdo gerado por IA.

🌐 A Pinterest busca um equilíbrio entre tecnologia de IA e experiência do usuário.

6. LLaVA-OneVision-1.5, modelo multissensorial totalmente aberto, supera o modelo Qwen2.5-VL

LLaVA-OneVision-1.5 é um modelo multissensorial aberto, capaz de lidar com diferentes entradas, como imagens e vídeos, e se destacou em diversos testes de benchmark, superando o modelo Qwen2.5-VL.

image.png

【Resumo da AiBase:】

🧠 O LLaVA-OneVision-1.5 é um novo modelo multissensorial, capaz de lidar com diferentes formas de entrada, como imagens e vídeos.

📈 O processo de treinamento divide-se em três etapas, visando melhorar eficientemente a capacidade de compreensão visual e linguística do modelo.

🏆 No benchmarking, o LLaVA-OneVision-1.5 se saiu bem, superando o modelo Qwen2.5-VL.

Detalhes: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. Modelo de geração de vídeo da OpenAI Sora 2 entra na plataforma Microsoft Azure: preço de US$ 0,1 por segundo, entra na fase de pré-visualização pública

A Microsoft anunciou que o modelo de geração de vídeo Sora 2 da OpenAI está disponível na versão internacional do Azure AI Foundry, entrando na fase de pré-visualização pública, marcando o início da aplicação comercial de ferramentas de IA generativa de vídeo.

image.png

【Resumo da AiBase:】

🎥 O Sora2 é um modelo de geração de vídeo multimídia, suportando entrada de texto, imagem e vídeo para gerar novos conteúdos de vídeo.

💰 Preço de US$ 0,1 por segundo, usando um modelo de cobrança por duração de geração, adequado para uso em massa por usuários corporativos.

🌐 O Sora2 está disponível apenas na versão internacional do Azure AI Foundry, os usuários da China não conseguem acessá-lo diretamente no momento.

8. O buscador de viagens Kayak lança modo "AI": planejamento e reserva de viagens mais fáceis

A Kayak lançou um novo "modo AI", que ajuda os usuários a pesquisar, planejar e reservar viagens através de um chatbot integrado. Essa funcionalidade usa a tecnologia ChatGPT para fornecer resultados de pesquisa com mais contexto e suporta perguntas abertas para obter sugestões de viagem.

image.png

【Resumo da AiBase:】

🌍 A Kayak lançou o "modo AI", permitindo que os usuários planejem e reservem viagens facilmente por meio de um chatbot.

🗣️ Essa funcionalidade permite fazer perguntas sobre sugestões de viagem e comparar serviços de viagem, fornecendo informações precisas com a tecnologia ChatGPT.

📅 O "modo AI" inicialmente suporta apenas inglês, mas será expandido para mais idiomas e plataformas posteriormente, incluindo funções de solicitação por voz.