Jornal de IA: Alibaba Tongyi libera modelo de geração de áudio ThinkSound; Google Veo3 gera vídeos com imagens; Feishu lança oficialmente várias novas soluções de IA

Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais quentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos Clique para saber mais:https://top.aibase.com/

1. Alibaba TONGYI abriu ao público o modelo de geração de áudio ThinkSound com suporte à razão em cadeia

A equipe de IA de voz da Alibaba abriu ao público o primeiro modelo global de geração de áudio com suporte à razão em cadeia chamado ThinkSound. Este modelo, ao introduzir a tecnologia de pensamento em cadeia, superou as limitações da tecnologia tradicional de conversão de vídeo para áudio, permitindo a geração de áudio espacial de alta fidelidade e sincronização forte. Essa evolução tecnológica marca a transição da IA de áudio de "dublagem de imagens" para uma compreensão estruturada das imagens.

【Resumo AiBase:】
🧠 O ThinkSound combina pela primeira vez modelos de linguagem multimodal grandes com uma arquitetura unificada de geração de áudio, permitindo síntese de áudio precisa.
📊 A equipe de pesquisa construiu um conjunto de dados AudioCoT com 2531,8 horas de amostras de alta qualidade, aumentando a capacidade do modelo de lidar com instruções complexas.
🚀 O ThinkSound demonstra desempenho superior aos métodos principais em vários conjuntos de testes. O código e os pesos pré-treinados estão disponíveis no open source, podendo ser obtidos gratuitamente pelos desenvolvedores.
Link detalhado: https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2. Veo3 da Google sofre uma atualização significativa, suportando a geração de vídeos dinâmicos a partir de imagens estáticas

A Google anunciou uma atualização significativa para sua ferramenta de geração de vídeos de IA, Veo3. Os usuários precisam apenas carregar uma imagem estática para gerar conteúdo de áudio e vídeo de alta qualidade, demonstrando o grande potencial da IA na área criativa. As principais funções do Veo3 incluem manter a consistência dos personagens em múltiplas cenas e oferecer recursos avançados de movimento da câmera, como zoom para frente. Além disso, os usuários podem escolher diferentes modelos de geração de qualidade, mas isso exigirá o uso de créditos correspondentes.

【Resumo AiBase:】
🖼️ Após a atualização, o Veo3 suporta a geração de vídeos dinâmicos a partir de uma única imagem estática.
🎥 Suporta recursos de movimento da câmera, como zoom para frente (Dolly in), aumentando a profissionalidade dos vídeos.
🔊 Os usuários podem escolher diferentes modelos de qualidade, mas isso requer o uso de créditos correspondentes.

3. Hugging Face lança nova versão pequena de modelo SmolLM3: contexto de 128K, raciocínio em dois modos

A Hugging Face lançou o SmolLM3, um modelo de código aberto pequeno com 3 bilhões de parâmetros, que possui desempenho superior ao Llama-3.2-3B e Qwen2.5-3B. Esse modelo suporta processamento multilíngue e tem função de raciocínio em dois modos, enquanto também divulga detalhes da arquitetura para promover pesquisas e otimizações.

【Resumo AiBase:】
🧠 O SmolLM3 possui 3 bilhões de parâmetros, superando outros modelos de código aberto semelhantes, suporta processamento multilíngue.
⚙️ Oferece dois modos de raciocínio: pensamento profundo e não pensamento, atendendo flexivelmente a diferentes necessidades.
📊 Utiliza uma arquitetura avançada de decodificador transformer, melhorando suas capacidades por meio de treinamento híbrido em três etapas.
Link detalhado: https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4. Alibaba abre ao público WebSailor, com fortes capacidades de raciocínio e recuperação

A Alibaba TONGYI abriu ao público o agente da Internet WebSailor, que se destacou nos conjuntos de avaliação BrowseComp de tarefas em chinês e inglês, superando modelos fechados como DeepSeek R1 e Grok-3, demonstrando fortes capacidades de raciocínio e recuperação. A Galaxy Securities afirma que a economia de agentes de IA está totalmente aberta e recomenda que os investidores prestem atenção às empresas SAAS líderes. Empresas listadas como Focus Technology e Zhongke Jincai já possuem posicionamento em tecnologia de agentes de IA, impulsionando o desenvolvimento da tecnologia de agentes inteligentes.

【Resumo AiBase:】
📌 A Alibaba TONGYI abriu ao público o WebSailor, mostrando excelentes capacidades de raciocínio e recuperação.
📈 A Galaxy Securities afirma que a economia de agentes de IA está totalmente aberta e recomenda que os investidores prestem atenção às empresas SAAS relacionadas.
💡 Empresas como Focus Technology e Zhongke Jincai têm vantagens claras na aplicação de tecnologia de agentes inteligentes.
Link detalhado: https://github.com/Alibaba-NLP/WebAgent

5. Moonvalley lança Marey Realism v1.5: modelo de vídeo de IA nativo de 1080P, risco zero de direitos autorais lidera a nova tendência da indústria!

O modelo de geração de vídeo de IA Marey Realism v1.5 da Moonvalley realizou uma atualização abrangente em qualidade visual, liberdade criativa e conformidade legal. Sua capacidade de geração de vídeo nativa de 1080P, dados de treinamento baseados em conteúdo autorizado e capacidade de interpretação precisa de instruções complexas fornecem ferramentas mais seguras e eficientes para produção cinematográfica e criação publicitária.

【Resumo AiBase:】
🎥 Capacidade nativa de geração de vídeo de 1080P, fornecendo experiência visual próxima à filmagem real.
🔒 Dados de treinamento 100% autorizados, eliminando completamente os riscos de direitos autorais.
🔄 Suporta geração de vídeo a partir de texto e imagem, aumentando a flexibilidade criativa.

6. Vidu Q1 melhora significativamente: suporte a vídeo a partir de até sete imagens, elevando novamente o nível de geração de vídeo de IA

A função "Vídeo a partir de Referência" do Vidu Q1 permite que os usuários carreguem até sete imagens de referência, gerando vídeos de 1080p com alta consistência visual. Essa tecnologia garante que os elementos de várias imagens permaneçam consistentes no vídeo por meio de fusão semântica, resolvendo problemas como ruptura de cenários ou distorção de personagens na geração tradicional de vídeos de IA, oferecendo aos criadores uma poderosa ferramenta.

【Resumo AiBase:】
🎥 Suporta até sete imagens de referência, aumentando a flexibilidade na criação de vídeos
🔍 Tecnologia de fusão semântica garante alta consistência dos elementos de várias imagens no vídeo
🔄 Tecnologia de consistência de múltiplos sujeitos proporciona experiência visual coesa em cenários complexos

7. Apple desenvolve assistente de suporte baseado em ChatGPT, melhorando a experiência de atendimento ao cliente

A Apple está desenvolvendo um "assistente de suporte" baseado em inteligência artificial, visando oferecer aos usuários uma experiência mais inteligente e eficiente de atendimento ao cliente. Essa funcionalidade foi encontrada no código da aplicação Apple Support e, no futuro, permitirá que os usuários obtenham soluções geradas por IA antes de contatar o suporte, aumentando a eficiência do serviço.

【Resumo AiBase:】
🍎 A Apple está desenvolvendo um assistente de suporte baseado em IA para melhorar a eficiência do atendimento ao cliente.
💬 Os usuários podem obter soluções para seus problemas através de IA antes de contactar o suporte, reduzindo o tempo de espera.
🔄 O assistente de suporte pode permitir upload de arquivos, enriquecendo a experiência interativa.

8. Feishu anuncia diversos novos produtos de IA, criando uma "Doubao" empresarial

A Feishu lançou diversos produtos de IA, incluindo perguntas e respostas, reuniões de IA, Aily, Feishu Miaoda, visando acelerar a implantação de IA em aplicações empresariais. Além disso, a Feishu também lançou o primeiro modelo de maturidade de aplicação de IA do setor, ajudando as empresas a avaliar o desempenho real dos produtos de IA.

【Resumo AiBase:】
🚀 A Feishu lançou diversos produtos de IA, ajudando as empresas a implementar operações inteligentes.
📊 Lançou um modelo de maturidade de aplicação de IA, melhorando a capacidade das empresas de julgar produtos de IA.
📈 A performance da tabela multidimensional da Feishu e suas capacidades de IA alcançaram saltos duplos, suportando o processamento de grandes volumes de dados.

9. Microsoft, OpenAI e Anthropic lançam juntos o centro de treinamento de IA para educadores

A Associação Nacional de Professores (AFT) se associou à Microsoft, OpenAI e Anthropic para criar a Academia Nacional de Inteligência Artificial, visando fornecer treinamento gratuito em ferramentas de IA para professores, ajudando-os a utilizar melhor a tecnologia de inteligência artificial. O projeto recebeu financiamento de 23 milhões de dólares, promovendo mudanças tecnológicas no setor educacional.

【Resumo AiBase:】
👩‍🏫 Os professores aprenderão novas tecnologias por meio do treinamento de IA, garantindo seu papel dominante na educação.
💰 A Microsoft, OpenAI e Anthropic fornecem 23 milhões de dólares em apoio ao projeto de educação com IA.
📚 A academia de IA visa promover a democratização da educação, garantindo que a tecnologia sirva tanto aos alunos quanto aos professores.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Jornal de IA: Alibaba Tongyi libera modelo de geração de áudio ThinkSound; Google Veo3 gera vídeos com imagens; Feishu lança oficialmente várias novas soluções de IA

站长之家

Este artigo é do AIbase Daily