Bem-vindo ao programa "AI Daily"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais quentes do setor de IA, focando nos desenvolvedores e ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.
Novos produtos de IA clicar para mais informações:https://app.aibase.com/zh
1. Anúncio do modelo Wan 2.2-S2V da Tongyi Wanxiang da Alibaba: geração sincronizada de vídeo e áudio de IA
A equipe Tongyi Wanxiang da Alibaba publicou em sua plataforma de mídia social X seu novo modelo de IA Wan 2.2-S2V, que é capaz de gerar vídeos e áudios simultaneamente, realizando uma fusão profunda entre vídeos e áudios. Isso marca um importante avanço na tecnologia de geração multimodal de IA, oferecendo ferramentas mais eficientes e expressivas aos criadores de conteúdo.
【Resumo do AiBase:】
🔥 O modelo Wan2.2-S2V tem capacidade de gerar vídeo e áudio simultaneamente, superando as limitações dos modelos tradicionais de geração de vídeo.
🎵 O modelo pode gerar vídeos de IA com áudio de canto, demonstrando a inovação na tecnologia de geração multimodal de IA.
🚀 Esse modelo pode redefinir os padrões no campo de geração de vídeos de IA, impulsionando o desenvolvimento de conteúdo com imersão e realismo.
2. ByteDance testa nova ferramenta de geração de modelo 3D “3D Model Generator”
O time Dou Bao da ByteDance está desenvolvendo uma nova ferramenta de geração de modelo 3D chamada “3D Model Generator”, visando fornecer funcionalidades de geração em larga escala controláveis para os usuários. A ferramenta suporta métodos de geração baseados em imagens e combinação de imagens e arquivos de modelo, reduzindo a barreira para modelagem 3D, especialmente significativo na indústria de desenvolvimento de jogos.
【Resumo do AiBase:】
🖼️ Suporte à geração de modelos 3D com base em imagens, reduzindo a barreira para modelagem 3D.
⚙️ Oferece métodos de geração combinando imagens e arquivos de modelo, aumentando a flexibilidade criativa.
🚀 Previsto para ser aberto ao público, expandindo as funções do Dou Bao, atendendo melhor às necessidades dos usuários.
3. Até celulares podem rodar! MinitCPM-V4.5 é lançado pela Face Intelligence, superando GPT-4.1-mini com 410 milhões de parâmetros
A Face Intelligence e o laboratório de NLP da Universidade de Ciência e Tecnologia da China lançaram o MinitCPM-V4.5, um grande modelo multimodal para dispositivos periféricos, com desempenho excepcional e implementação eficiente. O modelo se saiu bem em vários testes de benchmark, suportando múltiplos idiomas, vídeos e processamento de imagens de alta resolução, adequado para dispositivos de borda, promovendo a difusão da tecnologia de IA.
【Resumo do AiBase:】
🌟 O MinitCPM-V4.5 com 410 milhões de parâmetros realiza alto desempenho, superando modelos como GPT-4.1-mini.
🖼️ Suporta compreensão de múltiplas imagens, vídeos e processamento de imagens de alta resolução, com performance de OCR superior aos modelos principais.
📱 Implementação eficiente em dispositivos de borda, ideal para cenários móveis e offline, reduzindo a barreira de desenvolvimento.
Detalhes: https://huggingface.co/openbmb/MiniCPM-V-4_5
4. Apple lança novo método de treinamento de IA substituindo avaliações humanas por listas de tarefas, melhorando significativamente o desempenho do modelo
A equipe de pesquisa da Apple propôs um método inovador de treinamento chamado "Reforço com Feedback de Lista (RLCF)", substituindo mecanismos tradicionais de avaliação humana por listas de tarefas específicas, melhorando significativamente a capacidade dos modelos de linguagem grande de executar instruções complexas. Esse método se mostrou excelente em vários benchmarks, especialmente na execução de tarefas complexas com múltiplos passos.
【Resumo do AiBase:】
🍎 O método RLCF substitui avaliações humanas por listas de tarefas, melhorando a capacidade do modelo de executar instruções complexas.
📊 Em testes como FollowBench e InFoBench, o desempenho melhora significativamente, chegando a 8,2%.
⚙️ Usa modelos grandes para gerar listas de verificação, fornecendo orientação para pequenos modelos, mas requer recursos computacionais poderosos.
5. Microsoft abre código-fonte do modelo VibeVoice-1.5B: nova conquista em síntese de voz de 90 minutos
A Microsoft abriu o código-fonte do seu novo modelo de áudio VibeVoice-1.5B, que realizou várias importantes inovações na tecnologia de síntese de voz, incluindo a síntese de voz de 90 minutos, suporte a quatro locutores e taxa de compressão de áudio de 3200 vezes. Além disso, sua arquitetura de tokenizer duplo resolveu efetivamente o problema de incompatibilidade entre tom de voz e semântica, trazendo novas conquistas técnicas para o campo de síntese de voz.
【Resumo do AiBase:】
🔊 O modelo VibeVoice-1.5B pode sintetizar vozes de até 90 minutos de uma só vez, suportando até quatro locutores.
💾 O modelo alcança uma taxa de compressão de áudio de 3200 vezes, mantendo a qualidade de áudio fiel.
🤖 Utiliza uma arquitetura de tokenizer duplo, resolvendo problemas de incompatibilidade entre tom de voz e semântica.
Detalhes: https://huggingface.co/microsoft/VibeVoice-1.5B
6. Google Imagen 4 entra oficialmente no Gemini API e Google AI Studio
A empresa Google lançou um novo modelo de geração de imagem a partir de texto chamado Imagen4, disponibilizado aos usuários através da plataforma Gemini API e Google AI Studio. O modelo possui três versões, otimizadas para diferentes necessidades, melhorando a qualidade, velocidade e eficiência de custo da geração de imagens, oferecendo ferramentas poderosas para áreas como arte, design de propaganda e outras indústrias.
【Resumo do AiBase:】
🌟 A versão padrão do Imagen4 melhora a qualidade geral da geração de imagens, especialmente em precisão de renderização de texto.
⚡ A versão Imagen4Fast otimiza a geração rápida de imagens e tarefas de processamento em massa, com velocidade de processamento significativamente maior e custo de uso reduzido para US$ 0,02 por geração.
🖼️ A versão Imagen4Ultra é capaz de gerar detalhes mais finos nas imagens e seguir com mais precisão as dicas de texto fornecidas pelos usuários, garantindo consistência e precisão nos resultados gerados.
7. Perda de talentos-chave da IA da ByteDance: o chefe da pesquisa visual Feng Jiasi deixou a empresa oficialmente
Feng Jiasi, líder da equipe de pesquisa básica de visão computacional do modelo Seed da ByteDance, teve impacto na estratégia de pesquisa de IA da empresa após sua demissão. Ele possui uma sólida formação acadêmica e experiência prática no campo de visão computacional e alcançou notáveis conquistas após entrar na ByteDance.
【Resumo do AiBase:】
🔥 Feng Jiasi era responsável pela equipe de pesquisa básica de visão computacional do modelo Seed da ByteDance, e sua demissão gerou ampla atenção.
💡 Feng Jiasi possui formação em universidades como a Universidade de Ciência e Tecnologia da China, Instituto de Automação da Academia Chinesa de Ciências e Universidade Nacional da Singapura, com sólida formação acadêmica.
🚀 Durante seu tempo na ByteDance, Feng Jiasi liderou pesquisas em modelos básicos multimodais e modelos de geração, contribuindo significativamente para a inovação tecnológica da empresa.
8. NVIDIA lança plataforma de computação robótica Jetson Thor
A NVIDIA lançou uma nova plataforma de computação robótica chamada Jetson Thor, que utiliza a arquitetura GPU Blackwell, com capacidade de IA de 2070 TFLOPS, sendo 7,5 vezes mais potente que a geração anterior. A plataforma vem com 128 GB de memória, suporta a execução de múltiplos modelos de IA e integra a plataforma de simulação NVIDIA Isaac, fornecendo um ambiente de desenvolvimento unificado para os desenvolvedores.
【Resumo do AiBase:】
🚀 O Jetson Thor utiliza a arquitetura GPU Blackwell, com capacidade de IA de 2070 TFLOPS, apresentando um aumento significativo no desempenho.
🧠 Possui 128 GB de memória ultra grande, suportando processamento de múltiplas tarefas e operações eficientes em cenários complexos.
🌐 Integra a plataforma de simulação NVIDIA Isaac, fornecendo um ambiente de desenvolvimento unificado desde a nuvem até as bordas.
9. Genspark lança AIDesigner: geração automática de plano de marca, redefinindo o novo cenário de design com IA
O Genspark AI Designer é uma ferramenta revolucionária de design de IA, capaz de gerar planos completos de marca com um clique, abrangendo áreas como logotipo, embalagem, design de site, etc., reduzindo significativamente a barreira do design e recebendo ampla atenção da indústria de design e tecnologia em todo o mundo.
【Resumo do AiBase:】
🎨 O Genspark AI Designer suporta entradas multimodais, podendo gerar ícones vetoriais, renderizações 3D e vídeos animados.
🌐 A ferramenta completa tarefas de design complexas por meio de instruções em linguagem natural, oferecendo soluções completas para logotipo de marca, embalagem e site.
💡 O AI Designer redefine o processo de design de marca, fornecendo soluções eficientes e econômicas para criadores e empresas.
Detalhes: https://www.genspark.ai/ai_designer
10. Dou Bao lança oficialmente modo de proteção para menores de idade
O Dou Bao lançou o modo de proteção para menores de idade, visando ajudar os pais a gerenciar o comportamento de uso das crianças. Este modo desliga algumas funções, como vídeos recomendados e navegação em sites de terceiros, mas mantém funções como tradução e pesquisa aprofundada.
【Resumo do AiBase:】
🔒 O modo de proteção para menores de idade pode ser ativado pelos pais por meio de senha, limitando o acesso a certos conteúdos.
📺 Funcionalidades como vídeos recomendados e navegação em sites de terceiros estão desativadas por padrão neste modo.
🌐 Funções como tradução e pesquisa aprofundada ainda podem ser usadas normalmente, garantindo que o aprendizado e a exploração não sejam afetados.