Jornal AI: Baidu lança a plataforma HuiXiang e MuseSteamer; modelo de personagem digital corporal com áudio da Alibaba, OmniAvatar

Bem-vindo ao programa "Diário de IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes na área de IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos clicar para saber mais:https://top.aibase.com/

1. Modelo de áudio de ponta a ponta aberto Step-Audio-AQAA: Entenda áudio e gere voz natural diretamente

O Step-Audio-AQAA é um modelo de áudio de ponta a ponta aberto que pode gerar saída de voz natural e fluida diretamente a partir de entrada de áudio bruto, melhorando significativamente a experiência de interação humano-máquina. O modelo é composto por três partes: marcador de áudio com dois códigos, LLM principal e sintetizador neural, capazes de processar eficientemente informações complexas no áudio, estabelecendo uma base sólida para aplicações de voz inteligente futuras.

[Resumo do AiBase:]
🔊 O Step-Audio-AQAA pode gerar voz natural diretamente a partir de entrada de áudio, melhorando a experiência de interação humano-máquina.
📊 A arquitetura do modelo é composta por três módulos: marcador de áudio com dois códigos, LLM principal e sintetizador neural, capazes de capturar eficientemente informações complexas no áudio.
🎤 O lançamento do Step-Audio-AQAA marca uma importante evolução na tecnologia de interação de áudio, oferecendo novas ideias para aplicações de voz inteligente no futuro.
Link detalhado: https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2. Baidu lança plataforma "Huixiang" e MuseSteamer: Geração de vídeo por IA, uma imagem é suficiente para criar filmes profissionais!

A Baidu lançou a plataforma "Huixiang" e o MuseSteamer, fornecendo soluções completas para geração de vídeos usando IA generativa e tecnologias multimídia, atendendo às necessidades de cenários como busca e anúncios. O MuseSteamer possui forte controle e alto custo-benefício, permitindo que os usuários gerem conteúdo de vídeo profissional apenas carregando uma imagem, simplificando significativamente o processo de produção de vídeos.

[Resumo do AiBase:]
🎥 O MuseSteamer suporta a geração integrada de áudio e vídeo, alcançando efeitos de produção cinematográfica.
🔄 Suporta a geração de vídeos dinâmicos contínuos de 10 segundos, aumentando a eficiência criativa.
🖼️ Os usuários precisam apenas carregar uma imagem para gerar conteúdo de vídeo profissional.
Detalhes: https://huixiang.baidu.com/

3. Zhejiang University e Alibaba lançam OmniAvatar: Modelo de personagem digital corporal acionado por áudio chega com impacto

O modelo OmniAvatar, lançado pela Universidade de Zhejiang e Alibaba, fez grandes avanços na tecnologia de personagens digitais acionados por áudio, podendo gerar vídeos de personagens digitais corporais naturais e fluentes, especialmente se destacando em cenas de canto. O modelo permite controlar detalhes com precisão por meio de dicas de texto e tem potencial para múltiplos cenários de aplicação, trazendo possibilidades inovadoras para marketing, educação e entretenimento.

[Resumo do AiBase:]
🎧 Tecnologia acionada por áudio gera vídeos de personagens digitais corporais.
🎨 Suporta controle de detalhes com dicas de texto, aumentando a flexibilidade.
🌐 Projeto open source oferece amplo espaço de aplicação para cenários comerciais.

4. A busca do Baidu sofre sua maior reforma em dez anos: caixa inteligente, BaiKan, assistente de IA evoluem significativamente

A busca do Baidu realizou a maior reforma em sua história, introduzindo funções inovadoras como caixa inteligente, BaiKan e assistente de IA, melhorando significativamente a experiência de busca e a capacidade criativa dos usuários.

[Resumo do AiBase:]
🧠 A caixa inteligente suporta entradas de mil caracteres, reforçando a capacidade de interação multimídia.
🎥 A função BaiKan foi atualizada, suportando saída de conteúdo misto e serviços de agente inteligente.
📽️ O assistente de IA adicionou a funcionalidade de chamada de vídeo, melhorando a capacidade criativa e de busca.

5. Novos recursos Grok4 e Grok4Code adicionados ao console xAI, indicando o lançamento da próxima geração de modelos de IA

A xAI adicionou referências aos modelos Grok4 e Grok4Code no console de desenvolvedor, sinalizando que o lançamento da próxima geração de modelos de IA está próximo. O Grok4 é descrito como "a obra-prima da IA completa", enquanto o Grok4Code se concentra na otimização de programação. A inclusão desses dois modelos indica que o lançamento público está em sua fase final de preparação.

[Resumo do AiBase:]
🧠 O Grok4, modelo principal da xAI, se concentra em melhorar as capacidades de processamento de linguagem natural, raciocínio matemático e raciocínio geral.
💻 O Grok4Code é especializado em otimização de programação e planeja ser integrado sem problemas com editores de código, aumentando a eficiência do desenvolvimento.
🌐 A xAI fornece acesso ao Grok4 por meio de API, e no futuro expandirá para capacidades multimídia, reduzindo a barreira para os desenvolvedores.

6. Gemini Live ganha uma grande atualização! Conexão sem emenda com aplicativos Google, vida inteligente à mão

A atualização do Gemini Live, através da integração profunda com o ecossistema Google, melhorou a experiência de interação inteligente dos usuários, ao mesmo tempo que considerou a proteção da privacidade, demonstrando seu potencial no campo de assistentes inteligentes.

[Resumo do AiBase:]
📱 O Gemini Live se integra profundamente com aplicativos como Google Maps e Calendar, melhorando a eficiência de operações entre aplicativos.
🧠 Suporta interação multimídia, como escaneamento de informações para gerar tarefas ou agendas automaticamente, aumentando a utilidade.
🔒 O Google prioriza a proteção da privacidade, permitindo que os usuários gerenciem permissões para garantir a segurança dos dados.

7. O Gemini Live vai se integrar plenamente aos aplicativos Google, o assistente de IA fica mais inteligente!

O Gemini Live está recebendo uma grande atualização, adicionando integração profunda com vários aplicativos Google, incluindo Google Maps, Google Calendar e aplicativos de terceiros como Spotify e YouTube Music. Além disso, ele introduziu funcionalidades baseadas em entrada da câmera e formas de interação mais inteligentes, como interface em cartões e funções semelhantes ao Circle-to-Search. O Google também se preocupa com a proteção da privacidade, garantindo a segurança dos dados dos usuários.

[Resumo do AiBase:]
📲 O Gemini Live agora suporta extensivamente aplicativos como Google Maps e Google Calendar, melhorando a eficiência de interação.
🖼️ Introduziu funcionalidades baseadas em entrada da câmera, identificando pôsteres de concertos ou listas manuscritas e executando operações automaticamente.
🔒 O Google enfatiza a proteção da privacidade, permitindo que os usuários desliguem a conexão com os aplicativos e o treinamento de dados de conversas por meio das configurações.

8. Receita anual da Anthropic já atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano, competição com Cursor intensifica

O artigo afirma que a receita anual da startup de IA Anthropic já atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano, e que seu concorrente Cursor também está expandindo ativamente seus negócios, intensificando a competição. O Cursor depende da tecnologia da Anthropic e está melhorando sua competitividade ao contratar executivos e inovar. O rápido desenvolvimento da tecnologia de IA está impulsionando o aumento da demanda por ferramentas de programação, e todas as empresas estão disputando por participação de mercado.

[Resumo do AiBase:]
🤖 A receita anual da Anthropic atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano.
🔄 O Cursor fortaleceu sua competitividade ao contratar executivos da Anthropic.
📈 O rápido desenvolvimento da tecnologia de IA está aumentando continuamente a demanda por ferramentas de programação.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Jornal AI: Baidu lança a plataforma HuiXiang e MuseSteamer; modelo de personagem digital corporal com áudio da Alibaba, OmniAvatar

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

抖音副社長李亮：AI技術が偽情報の対策に役立つことで信頼できるプラットフォーム環境を構築する

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias