Bem-vindo ao programa "Diário de IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes na área de IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Produtos de IA novos clicar para saber mais:https://top.aibase.com/

1. Modelo de áudio de ponta a ponta aberto Step-Audio-AQAA: Entenda áudio e gere voz natural diretamente

O Step-Audio-AQAA é um modelo de áudio de ponta a ponta aberto que pode gerar saída de voz natural e fluida diretamente a partir de entrada de áudio bruto, melhorando significativamente a experiência de interação humano-máquina. O modelo é composto por três partes: marcador de áudio com dois códigos, LLM principal e sintetizador neural, capazes de processar eficientemente informações complexas no áudio, estabelecendo uma base sólida para aplicações de voz inteligente futuras.

image.png

[Resumo do AiBase:]

🔊 O Step-Audio-AQAA pode gerar voz natural diretamente a partir de entrada de áudio, melhorando a experiência de interação humano-máquina.

📊 A arquitetura do modelo é composta por três módulos: marcador de áudio com dois códigos, LLM principal e sintetizador neural, capazes de capturar eficientemente informações complexas no áudio.

🎤 O lançamento do Step-Audio-AQAA marca uma importante evolução na tecnologia de interação de áudio, oferecendo novas ideias para aplicações de voz inteligente no futuro.

Link detalhado: https://huggingface.co/stepfun-ai/Step-Audio-AQAA

2. Baidu lança plataforma "Huixiang" e MuseSteamer: Geração de vídeo por IA, uma imagem é suficiente para criar filmes profissionais!

A Baidu lançou a plataforma "Huixiang" e o MuseSteamer, fornecendo soluções completas para geração de vídeos usando IA generativa e tecnologias multimídia, atendendo às necessidades de cenários como busca e anúncios. O MuseSteamer possui forte controle e alto custo-benefício, permitindo que os usuários gerem conteúdo de vídeo profissional apenas carregando uma imagem, simplificando significativamente o processo de produção de vídeos.

image.png

[Resumo do AiBase:]

🎥 O MuseSteamer suporta a geração integrada de áudio e vídeo, alcançando efeitos de produção cinematográfica.

🔄 Suporta a geração de vídeos dinâmicos contínuos de 10 segundos, aumentando a eficiência criativa.

🖼️ Os usuários precisam apenas carregar uma imagem para gerar conteúdo de vídeo profissional.

Detalhes: https://huixiang.baidu.com/

3. Zhejiang University e Alibaba lançam OmniAvatar: Modelo de personagem digital corporal acionado por áudio chega com impacto

O modelo OmniAvatar, lançado pela Universidade de Zhejiang e Alibaba, fez grandes avanços na tecnologia de personagens digitais acionados por áudio, podendo gerar vídeos de personagens digitais corporais naturais e fluentes, especialmente se destacando em cenas de canto. O modelo permite controlar detalhes com precisão por meio de dicas de texto e tem potencial para múltiplos cenários de aplicação, trazendo possibilidades inovadoras para marketing, educação e entretenimento.

image.png

[Resumo do AiBase:]

🎧 Tecnologia acionada por áudio gera vídeos de personagens digitais corporais.

🎨 Suporta controle de detalhes com dicas de texto, aumentando a flexibilidade.

🌐 Projeto open source oferece amplo espaço de aplicação para cenários comerciais.

4. A busca do Baidu sofre sua maior reforma em dez anos: caixa inteligente, BaiKan, assistente de IA evoluem significativamente

A busca do Baidu realizou a maior reforma em sua história, introduzindo funções inovadoras como caixa inteligente, BaiKan e assistente de IA, melhorando significativamente a experiência de busca e a capacidade criativa dos usuários.

image.png

[Resumo do AiBase:]

🧠 A caixa inteligente suporta entradas de mil caracteres, reforçando a capacidade de interação multimídia.

🎥 A função BaiKan foi atualizada, suportando saída de conteúdo misto e serviços de agente inteligente.

📽️ O assistente de IA adicionou a funcionalidade de chamada de vídeo, melhorando a capacidade criativa e de busca.

5. Novos recursos Grok4 e Grok4Code adicionados ao console xAI, indicando o lançamento da próxima geração de modelos de IA

A xAI adicionou referências aos modelos Grok4 e Grok4Code no console de desenvolvedor, sinalizando que o lançamento da próxima geração de modelos de IA está próximo. O Grok4 é descrito como "a obra-prima da IA completa", enquanto o Grok4Code se concentra na otimização de programação. A inclusão desses dois modelos indica que o lançamento público está em sua fase final de preparação.

image.png

[Resumo do AiBase:]

🧠 O Grok4, modelo principal da xAI, se concentra em melhorar as capacidades de processamento de linguagem natural, raciocínio matemático e raciocínio geral.

💻 O Grok4Code é especializado em otimização de programação e planeja ser integrado sem problemas com editores de código, aumentando a eficiência do desenvolvimento.

🌐 A xAI fornece acesso ao Grok4 por meio de API, e no futuro expandirá para capacidades multimídia, reduzindo a barreira para os desenvolvedores.

6. Gemini Live ganha uma grande atualização! Conexão sem emenda com aplicativos Google, vida inteligente à mão

A atualização do Gemini Live, através da integração profunda com o ecossistema Google, melhorou a experiência de interação inteligente dos usuários, ao mesmo tempo que considerou a proteção da privacidade, demonstrando seu potencial no campo de assistentes inteligentes.

image.png

[Resumo do AiBase:]

📱 O Gemini Live se integra profundamente com aplicativos como Google Maps e Calendar, melhorando a eficiência de operações entre aplicativos.

🧠 Suporta interação multimídia, como escaneamento de informações para gerar tarefas ou agendas automaticamente, aumentando a utilidade.

🔒 O Google prioriza a proteção da privacidade, permitindo que os usuários gerenciem permissões para garantir a segurança dos dados.

7. O Gemini Live vai se integrar plenamente aos aplicativos Google, o assistente de IA fica mais inteligente!

O Gemini Live está recebendo uma grande atualização, adicionando integração profunda com vários aplicativos Google, incluindo Google Maps, Google Calendar e aplicativos de terceiros como Spotify e YouTube Music. Além disso, ele introduziu funcionalidades baseadas em entrada da câmera e formas de interação mais inteligentes, como interface em cartões e funções semelhantes ao Circle-to-Search. O Google também se preocupa com a proteção da privacidade, garantindo a segurança dos dados dos usuários.

image.png

[Resumo do AiBase:]

📲 O Gemini Live agora suporta extensivamente aplicativos como Google Maps e Google Calendar, melhorando a eficiência de interação.

🖼️ Introduziu funcionalidades baseadas em entrada da câmera, identificando pôsteres de concertos ou listas manuscritas e executando operações automaticamente.

🔒 O Google enfatiza a proteção da privacidade, permitindo que os usuários desliguem a conexão com os aplicativos e o treinamento de dados de conversas por meio das configurações.

8. Receita anual da Anthropic já atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano, competição com Cursor intensifica

O artigo afirma que a receita anual da startup de IA Anthropic já atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano, e que seu concorrente Cursor também está expandindo ativamente seus negócios, intensificando a competição. O Cursor depende da tecnologia da Anthropic e está melhorando sua competitividade ao contratar executivos e inovar. O rápido desenvolvimento da tecnologia de IA está impulsionando o aumento da demanda por ferramentas de programação, e todas as empresas estão disputando por participação de mercado.

image.png

[Resumo do AiBase:]

🤖 A receita anual da Anthropic atingiu 4 bilhões de dólares, crescendo quase quatro vezes desde o início do ano.

🔄 O Cursor fortaleceu sua competitividade ao contratar executivos da Anthropic.

📈 O rápido desenvolvimento da tecnologia de IA está aumentando continuamente a demanda por ferramentas de programação.