Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.
Novos produtos de IA Clique para saber mais: https://top.aibase.com/
🤖📱💼Aplicativos de IA
StreamingT2V: Alternativa ao Sora? Modelo de vídeo AI de 2 minutos de duração, código aberto e gratuito. Endereço de teste disponível
【Resumo AiBase:】
⭐ O StreamingT2V pode gerar vídeos com até 1200 quadros, com duração de 2 minutos, superando o modelo Sora.
⭐ Emprega tecnologia autorregressiva avançada, mantendo a consistência temporal e a alta qualidade do vídeo.
⭐ É um projeto de código aberto e gratuito, compatível com modelos como SVD e animatediff.
⭐ O código já foi lançado, e o endereço de teste também está online. O tempo de geração é longo, um vídeo leva cerca de 13 minutos para ser gerado.
Código aberto:https://top.aibase.com/tool/streamingt2v
Endereço do artigo:https://arxiv.org/pdf/2403.14773.pdf
Endereço de teste 1:https://huggingface.co/spaces/PAIR/StreamingT2V
Endereço de teste 2:https://replicate.com/camenduru/streaming-t2v
Udio AI oferece geração de áudio multifuncional, incluindo comédia, discursos, rádio, etc.
【Resumo AiBase:】
⭐ O Udio não só cria música, mas também comédia, discursos, diálogos de NPCs, análises esportivas, anúncios, programas de rádio, ASMR e efeitos sonoros naturais.
⭐ Criação simples com descrição de texto: os usuários podem usar descrições de texto simples para orientar o Udio a gerar músicas com temas e emoções específicos.
⭐ Ampla variedade de gêneros e estilos musicais: O Udio suporta vários gêneros e estilos musicais, atendendo a diferentes gostos musicais.
Para os interessados, clique para ver a lista de reprodução:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1
Endereço de teste:https://top.aibase.com/tool/udio
O recurso "Anime IA" do Meitu Wink foi atualizado, permitindo a conversão de curtas-metragens em estilo anime
【Resumo AiBase:】
⭐ Recentemente, o Meitu Wink atualizou o recurso "Anime IA", convertendo curtas-metragens em estilo anime.
⭐ Introdução do módulo CFA, otimizando a consistência de movimento e gerando vídeos de anime mais suaves e naturais.
⭐ A tecnologia de segmentação processa vídeos longos, reduzindo o tempo de espera e tornando a criação mais fluida.
StableDesign: solução SD para design de interiores. Modifique projetos de interiores com prompts de texto
【Resumo AiBase:】
⭐️ Os desenvolvedores criaram um projeto para geração de designs de interiores.
⭐️ Através do download de dados de imóveis e metadados de imagens do Airbnb, características são extraídas para treinamento.
⭐️ Treinado usando ControlNet e o modelo Lora, permitindo o controle da geração de design de interiores e a conversão de texto para imagem.
Teste online:https://huggingface.co/spaces/MykolaL/StableDesign
Mais poderoso que o deepfake! SwapAnything: substitui qualquer elemento em uma imagem
【Resumo AiBase:】
🔍 A estrutura SwapAnything possui vantagens como controle preciso de objetos e partes, preservação de pixels de contexto e adaptação a conceitos personalizados.
🔍 Através da troca de variáveis direcionadas e técnicas de ajuste de aparência, o SwapAnything demonstra capacidade de troca precisa e fiel.
🔍 O SwapAnything pode controlar precisamente qualquer objeto na imagem, permitindo trocas personalizadas de alta qualidade.
Acesso ao projeto:https://top.aibase.com/tool/swapanything
Endereço de teste online disponível para a ferramenta de geração de vídeo em timelapse MagicTime
【Resumo AiBase】
⭐ Vídeos em timelapse são uma técnica fotográfica que mostra mudanças ao longo do tempo.
⭐ O MagicTime pode gerar vídeos em timelapse com base em descrições de texto.
⭐ Amplamente aplicável, pode registrar fenômenos naturais e mudanças causadas pelo homem.
Endereço do projeto:https://top.aibase.com/tool/magictime
Endereço de teste:https://huggingface.co/spaces/BestWishYsh/MagicTime
Endereço de download do modelo:https://huggingface.co/Kijai/MagicTime-merged-fp16
Ferramenta de escrita automatizada STORM: pode gerar conteúdo longo e profundo como o da Wikipédia
【Resumo AiBase:】
⭐️O STORM coleta informações automaticamente, simula diálogos de especialistas e gera um esboço estruturado do artigo.
⭐️O STORM pesquisa e integra informações de múltiplos ângulos de forma eficiente, promovendo uma compreensão profunda e a geração precisa de perguntas.
⭐️Após gerar o esboço do artigo, o STORM escreve e revisa o artigo completo para melhorar a qualidade geral.
Endereço do projeto:https://top.aibase.com/tool/storm
Meta lança o modelo ViewDiff: geração de imagens 3D multiperspectivas a partir de texto
【Resumo AiBase:】
🌟 O ViewDiff resolveu os três principais desafios na geração de imagens 3D multiperspectivas a partir de texto.
🌟 O módulo de geração autorregressivo permite que o ViewDiff gere mais imagens 3D consistentes em qualquer perspectiva.
🌟 O ViewDiff preenche uma lacuna tecnológica na área de geração de imagens 3D multiperspectivas a partir de texto.
Endereço do artigo:https://arxiv.org/abs/2403.01807
Endereço do projeto:https://top.aibase.com/tool/viewdiff
📰🤖📢Notícias de IA
Primeiro programador de IA a ser pego em fraude, Devin choca novamente o Vale do Silício! Explicação detalhada em vídeo e texto anexada
【Resumo AiBase:】
⭐️ Programador do YouTube expõe a fraude no vídeo do primeiro programador de IA, Devin.
⭐️ A demonstração de Devin não é tão mágica quanto parece, corrigindo bugs e criando novos bugs.
⭐️ Questionado e desmascarado, os usuários criticam a publicidade exagerada de produtos de IA.
Conteúdo detalhado:https://www.chinaz.com/2024/0415/1610127.shtml
A XAI do Musk lança o modelo multi-modal Grok-1.5Vision, que pode processar informações de texto e imagem
【Resumo AiBase:】
⭐️ O modelo Grok-1.5Vision apresenta desempenho excepcional, superando o GPT4V.
⭐️ Desempenho excelente no teste de referência RealWorldQA, compreendendo o espaço físico do mundo real.
⭐️ O modelo Grok-1.5Vision possui fortes capacidades de processamento e compreensão do espaço do mundo real.
Endereço do site:https://top.aibase.com/tool/grok-1-5-vision-preview
O modelo de linguagem grande de 7B parâmetros 360 Zhi Nao é oficialmente lançado em código aberto, suportando até cerca de 500.000 caracteres de entrada
【Resumo AiBase:】
🧠 O modelo de linguagem grande de 7B parâmetros 360 Zhi Nao é oficialmente lançado em código aberto.
🧩 Suporta versões de diferentes comprimentos de texto, podendo processar textos longos de até 360K caracteres.
🔥 Apresenta excelente desempenho em testes de capacidade, classificando-se entre os três primeiros em capacidade geral.
Endereço do projeto:https://github.com/Qihoo360/360zhinao
O conjunto de dados de treinamento do IA de geração de imagens da Adobe, "Firefly", contém cerca de 5% de imagens de IA
【Resumo AiBase:】
⭐ O Adobe Stock começa a aceitar conteúdo de IA, com cerca de 14% de imagens geradas por IA.
⭐ Os estudiosos apontam que o Firefly aprendeu com imagens geradas pelo Midjourney, diferente do que foi afirmado.
⭐ Os usuários expressaram insatisfação com a Adobe por usar suas obras para treinar o Firefly.
Código e modelo totalmente abertos! O modelo multi-modal Mini-Gemini da equipe de Jia Jiaya chega ao topo das paradas
【Resumo AiBase:】
⭐️ O modelo Mini-Gemini alcançou resultados notáveis em tarefas multimodais, com código e dados de modelo abertos.
⭐️ O Mini-Gemini combina compreensão e geração de imagens, mostrando excelente capacidade de raciocínio de imagens.
⭐️ Empregando o método de mineração de informações de dois ramos visuais Gemini, ele processa efetivamente imagens de alta resolução e gera conteúdo visual e textual rico.
Endereço do projeto:https://top.aibase.com/tool/mini-gemini
Endereço de teste: https://103.170.5.190:7860/
A equipe de inteligência artificial de Mianbi lança os modelos da série MiniCPM2.0, com capacidades aprimoradas de OCR
【Resumo AiBase:】
⭐ O MiniCPM-V2.0 é o modelo multi-modal mais poderoso para dispositivos móveis, com poderosas capacidades de OCR.
⭐ O MiniCPM-1.2B é um modelo base adaptado para cenários de dispositivos móveis, com alta velocidade de inferência e baixo custo.
⭐ O MiniCPM-2B-128K é o menor modelo de texto longo atualmente disponível, processando conteúdo de texto de 128K.
MiniCPM-V2.0:
https://github.com/OpenBMB/MiniCPM-V
MiniCPM endereço de código aberto da série:
https://github.com/OpenBMB/MiniCPM
MiniCPM endereço do blog técnico:
https://openbmb.vercel.app/?category=Chinese+Blog
A competição esquenta! Crescimento do ChatGPT esfria, com 1,77 bilhão de acessos globais em março, enquanto o Claude ganha força
【Resumo AiBase:】
📉 O crescimento do número de acessos globais do ChatGPT desacelerou, apesar do lançamento de novos recursos.
🚀 O Claude da Anthropic está crescendo rapidamente no mercado europeu, intensificando a competição com o ChatGPT.
💥 Após o lançamento do Claude3, o crescimento contínuo e rápido mostra o potencial do novo produto.
A equipe InstantID lança um novo método de transferência de estilo InstantStyle, permitindo que você esteja instantaneamente em "A Noite Estrelada" de Van Gogh
【Resumo AiBase:】
⭐️ Subtração de recursos: usando as características do modelo CLIP, a informação de conteúdo é removida através da subtração de recursos, realizando o desacoplamento de estilo e conteúdo.
⭐️ Injeção apenas na camada de estilo: a injeção de recursos é realizada em uma camada de estilo específica, realizando o desacoplamento de estilo e conteúdo.
⭐️ Alta versatilidade: o método InstantStyle é versátil, fornecendo uma implementação de código rica e suportando vários cenários de aplicação.
Endereço do projeto:https://top.aibase.com/tool/instantstyle
Teste online:https://huggingface.co/spaces/InstantX/InstantStyle
——————
Prompt diário do Midjourney: mulher bonita em estilo chinês antigo