Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo de IA, com foco em desenvolvedores, para ajudá-lo a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1、Disponibilização do Character-1 da Hedra

O Character-1 da Hedra está disponível para uso, oferecendo aos criadores uma ferramenta incrível para gerar vídeos de pessoas falando e cantando a partir de texto e imagens, iniciando uma revolução criativa. Não é apenas uma ferramenta, mas uma nova plataforma de criação, permitindo que todos tenham infinitas oportunidades de criar vídeos.

【Resumo AiBase:】

⭐️ Geração de vídeos dinâmicos: Carregue fotos e áudio para fazer personagens falarem ou cantarem de forma realista.

⭐️ Compatibilidade multiplataforma: Usuários podem usar facilmente em desktops e dispositivos móveis.

⭐️ Garantia de alta qualidade: Expressões, poses e voz são sincronizadas, resultando em um efeito realista e satisfatório.

Link para detalhes: https://top.aibase.com/tool/hedra

2、Tecnologia de conversão de vídeo para áudio V2A do Deepmind: Permite adicionar trilhas sonoras e dublagem automática a vídeos

O Google Deepmind lançou a tecnologia V2A, que usa pixels de vídeo e prompts de texto para gerar faixas de áudio ricas, permitindo a geração sincronizada de áudio e vídeo. Os usuários podem usar descrições de texto para guiar a saída de áudio. O sistema usa métodos autoregressivos e de difusão para gerar áudio, garantindo sincronização perfeita com o conteúdo do vídeo. Durante o treinamento, anotações geradas por IA ajudam o modelo a entender a relação entre eventos de áudio e cenas visuais. Apesar dos desafios de sincronização labial, a tecnologia V2A será disponibilizada ao público após rigorosos testes de avaliação.

【Resumo AiBase:】

🔊 Adiciona automaticamente trilhas sonoras e dublagem a vídeos

🎶 Usa pixels de vídeo e prompts de texto para gerar faixas de áudio ricas

🤖 Usa anotações geradas por IA durante o treinamento

Link para detalhes: https://top.aibase.com/tool/deepmind-v2a

3、Modelo de linguagem de IA leve Index-1.9B de código aberto do Bilibili

O modelo Index-1.9B de código aberto recentemente lançado pelo Bilibili chamou muita atenção. O modelo inclui um modelo base, um grupo de controle e um modelo de diálogo, com 1,9 bilhão de parâmetros não embutidos em palavras, e apresenta desempenho superior em vários benchmarks.

image.png

【Resumo AiBase:】

🔍 Index-1.9B base: O modelo base tem 1,9 bilhão de parâmetros não embutidos em palavras, pré-treinado em 2,8T de dados de texto em chinês e inglês, superando modelos do mesmo nível.

🔍 Index-1.9B pure: O grupo de controle é o mesmo que o modelo base, mas os dados relacionados a instruções foram filtrados para verificar o impacto nos benchmarks.

🔍 Index-1.9B chat: Modelo de diálogo alinhado com base no modelo base por meio de SFT e DPO, introduzindo dados de comunidades online, tornando as conversas mais divertidas.

Link para detalhes: https://top.aibase.com/tool/index-1-9b

4、Lançamento oficial do WHEE V2 da Meitu

A Meitu lançou a nova versão do editor de imagens com IA WHEE V2, combinando várias funções práticas com tecnologia de IA para oferecer aos usuários uma experiência de processamento eficiente e integrada. As novas funções de pintura com IA e edição de imagens com IA enriquecem as opções de edição do usuário e suportam a apresentação criativa de vários tipos de materiais. As funções de seleção inteligente e prompts facilitam a edição natural para os usuários, permitindo o ajuste personalizado do tamanho da imagem, conteúdo da camada e vários métodos de ampliação de imagem. Possui várias camadas visualizáveis, reconhecimento semântico preciso, estilos diversos e controle de detalhes, permitindo o processamento de imagens de alta qualidade e personalizado.

image.png

【Resumo AiBase:】

✨ Novas funções de pintura e edição de imagens com IA, enriquecendo as opções de edição do usuário e suportando a apresentação criativa de vários tipos de materiais.

💡 Funções de seleção inteligente e prompts facilitam a edição natural para os usuários, permitindo o ajuste personalizado do tamanho da imagem, conteúdo da camada e vários métodos de ampliação de imagem.

🎨 Possui várias camadas visualizáveis, reconhecimento semântico preciso, estilos diversos e controle de detalhes, permitindo o processamento de imagens de alta qualidade e personalizado.

5、A equipe do Open-Sora da Lu Cheng alcança avanços na qualidade de vídeo HD 720p e tempo de geração

A equipe do Open-Sora da Lu Cheng fez avanços inovadores na qualidade de vídeo HD 720p e tempo de geração. O projeto de código aberto simplifica a geração de vídeo e recebeu uma recepção calorosa da comunidade. A Lambda Labs, uma empresa de IA com participação da Nvidia, também está usando os pesos do modelo Open-Sora para criar um universo de Lego digital, abrindo novas possibilidades criativas. O relatório técnico analisa profundamente o núcleo e os pontos-chave do treinamento do modelo, resolvendo os pontos problemáticos do treinamento do modelo de vídeo e melhorando a qualidade e a velocidade de geração.

【Resumo AiBase:】

⚙️ A equipe do Open-Sora alcança avanços na qualidade de vídeo HD 720p e tempo de geração, o projeto de código aberto simplifica o processo de geração de vídeo.

🌟 A Lambda Labs usa os pesos do modelo Open-Sora para criar um universo de Lego digital, cheio de criatividade.

🔬 O relatório técnico revela detalhes essenciais do treinamento do modelo, resolvendo os pontos problemáticos do treinamento do modelo de vídeo e melhorando a qualidade e a velocidade de geração.

Link para detalhes: https://github.com/hpcaitech/Open-Sora

6、Plataforma de Avatares Digitais XiLing da Baidu atualizada, suportando geração de avatares digitais 3D a partir de texto e clonagem de voz

A plataforma de avatares digitais XiLing da Baidu Smart Cloud está prestes a receber uma grande atualização, oferecendo geração de avatares digitais 2D/3D de baixo custo e alta eficiência, integrando totalmente várias cenas, como transmissão ao vivo, vídeos curtos e conversas, melhorando significativamente a experiência do usuário. A plataforma XiLing mostra uma capacidade impressionante de geração de avatares digitais, gerando avatares digitais realistas de forma rápida e precisa, trazendo novas possibilidades de criação de IPs para empresas, turismo e entretenimento.

image.png

【Resumo AiBase:】

🌟 Geração de avatares digitais 2D/3D de baixo custo e alta eficiência, melhorando a experiência do usuário.

🎨 Geração rápida e precisa de avatares digitais realistas, trazendo novas possibilidades de criação de IPs para vários setores.

🔊 Oferece função de clonagem de voz, gerando vozes personalizadas para uso em relatórios e produção de conteúdo de avatares digitais.

7、Meta lança vários modelos: modelo multimodal Chameleon, modelo de geração de música a partir de texto JASCO e tecnologia de marca d'água de áudio AudioSeal

A Meta lançou recentemente vários resultados de pesquisa, incluindo o modelo multimodal Chameleon, o modelo de geração de música a partir de texto JASCO e a tecnologia de marca d'água de áudio AudioSeal, trazendo novas inovações tecnológicas e perspectivas de aplicação para o campo da IA. Esses resultados impulsionarão o desenvolvimento e a aplicação da tecnologia de IA e têm um significado importante.

image.png

【Resumo AiBase:】

🌟 A Meta lançou o modelo multimodal Chameleon, que suporta o processamento de entrada e saída de texto e imagem, fornecendo novas soluções.

🎶 O novo método de treinamento de modelos de linguagem Multi-Token Prediction melhorou a capacidade e a eficiência do treinamento do modelo.

🔊 O modelo de geração de música a partir de texto JASCO pode receber vários tipos de entrada condicional, fornecendo melhor e mais controle flexível sobre a música.

Link para detalhes: https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、O Google lança o GenType, um gerador de alfabeto que pode ser usado para criar fontes de arte para capas

O GenType é um produto experimental lançado pelo Google, impulsionado pelo modelo Imagen2, que permite aos usuários criar formas de letras personalizadas para escrever vários conteúdos, especialmente adequado para criar títulos ou arte de capa. A ferramenta oferece uma interface simples e intuitiva, permitindo que os usuários comecem rapidamente, estimulando a criatividade e a imaginação. Os usuários podem compartilhar e salvar as imagens de alfabetos geradas e navegar pelas obras de outros usuários na galeria online para obter inspiração e ideias.

【Resumo AiBase:】

🎨 Criação de letras personalizadas: Os usuários podem inserir qualquer prompt, e o GenType o transforma em um alfabeto único, mostrando a criatividade individual.

🖌 Ferramenta de criação artística: O GenType não é apenas um gerador, mas também uma ferramenta de criação artística, permitindo que os usuários criem arte de letras com infinitas possibilidades.

📷 Compartilhamento e salvamento: Oferece opções convenientes de compartilhamento e salvamento, os usuários podem salvar o alfabeto como uma imagem PNG e compartilhá-la nas mídias sociais.

Link para detalhes: https://top.aibase.com/tool/gentype

9、Impressionante! A Nvidia ultrapassa a Microsoft e se torna a empresa mais valiosa do mundo

O preço das ações da Nvidia disparou, ultrapassando a Microsoft, a Apple e o Google, tornando-se a empresa com maior valor de mercado do mundo. A empresa planeja lançar uma nova arquitetura de GPU Blackwell, e o CEO disse que será o chip mais poderoso do mundo, lançando novos chips de IA a cada ano. O preço das ações da Nvidia subiu 160% em 2024, atingindo um valor de mercado de US$ 3,335 trilhões.

【Resumo AiBase:】

📈 A Nvidia ultrapassa a Microsoft, a Apple e o Google, tornando-se a empresa com maior valor de mercado do mundo.

💻 A Nvidia planeja lançar a arquitetura de GPU Blackwell, o CEO disse que será o chip mais poderoso do mundo, lançando novos chips de IA a cada ano.

💰 O preço das ações da Nvidia subiu 160% em 2024, atingindo um valor de mercado de US$ 3,335 trilhões.

10、A Apple anuncia novos recursos de inteligência artificial e lança “Treinamento de IA” para desenvolvedores

A Apple anunciou o lançamento de um novo curso de treinamento de inteligência artificial voltado para alunos, mentores e ex-alunos da Apple Developer Academy. Isso marca uma atitude mais aberta e uma crescente ênfase da Apple na tecnologia de IA.

【Resumo AiBase:】

🍎 A Apple lança um novo curso de treinamento de inteligência artificial, focado em aprimorar as habilidades de programação profissional dos alunos.

📚 O novo curso ensinará como construir, treinar e implantar modelos de aprendizado de máquina em dispositivos Apple.

💡 As ferramentas de IA da Apple serão integradas a várias plataformas, incluindo o Xcode, para ajudar os desenvolvedores a escrever código de forma mais inteligente.

11、Obras geradas pelo Dream Machine da Luma AI são acusadas de plágio de IPs da Disney

A ferramenta de geração de vídeo Dream Machine lançada pela Luma levantou preocupações sobre a transparência do modelo e a origem dos dados, especialmente as alegações de plágio de obras da Disney. Isso destaca uma das principais preocupações com esses modelos: a falta de transparência.

image.png

【Resumo AiBase:】

🔍 A transparência do modelo e a origem dos dados levantam preocupações, foi criado no estilo da Disney?

🚫 Os personagens que aparecem no vídeo são acusados de plágio de obras da Pixar da Disney, causando polêmica.