Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA  Clique para saber mais: https://top.aibase.com/

🤖📱💼Aplicativos de IA

StreamingT2V: Alternativa ao Sora? Modelo de vídeo AI de 2 minutos de duração, código aberto e gratuito. Endereço de teste disponível

2.png

【Resumo AiBase:】

⭐ O StreamingT2V pode gerar vídeos com até 1200 quadros, com duração de 2 minutos, superando o modelo Sora.

⭐ Emprega tecnologia autorregressiva avançada, mantendo a consistência temporal e a alta qualidade do vídeo.

⭐ É um projeto de código aberto e gratuito, compatível com modelos como SVD e animatediff.

⭐ O código já foi lançado, e o endereço de teste também está online. O tempo de geração é longo, um vídeo leva cerca de 13 minutos para ser gerado.

Código aberto:https://top.aibase.com/tool/streamingt2v

Endereço do artigo:https://arxiv.org/pdf/2403.14773.pdf

Endereço de teste 1:https://huggingface.co/spaces/PAIR/StreamingT2V

Endereço de teste 2:https://replicate.com/camenduru/streaming-t2v

Udio AI oferece geração de áudio multifuncional, incluindo comédia, discursos, rádio, etc.

image.png

【Resumo AiBase:】

⭐ O Udio não só cria música, mas também comédia, discursos, diálogos de NPCs, análises esportivas, anúncios, programas de rádio, ASMR e efeitos sonoros naturais.

⭐ Criação simples com descrição de texto: os usuários podem usar descrições de texto simples para orientar o Udio a gerar músicas com temas e emoções específicos.

⭐ Ampla variedade de gêneros e estilos musicais: O Udio suporta vários gêneros e estilos musicais, atendendo a diferentes gostos musicais.

Para os interessados, clique para ver a lista de reprodução:https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1

Endereço de teste:https://top.aibase.com/tool/udio

O recurso "Anime IA" do Meitu Wink foi atualizado, permitindo a conversão de curtas-metragens em estilo anime

微信截图_20240415085954.png

【Resumo AiBase:】

⭐ Recentemente, o Meitu Wink atualizou o recurso "Anime IA", convertendo curtas-metragens em estilo anime.

⭐ Introdução do módulo CFA, otimizando a consistência de movimento e gerando vídeos de anime mais suaves e naturais.

⭐ A tecnologia de segmentação processa vídeos longos, reduzindo o tempo de espera e tornando a criação mais fluida.

StableDesign: solução SD para design de interiores. Modifique projetos de interiores com prompts de texto

image.png

【Resumo AiBase:】

⭐️ Os desenvolvedores criaram um projeto para geração de designs de interiores.

⭐️ Através do download de dados de imóveis e metadados de imagens do Airbnb, características são extraídas para treinamento.

⭐️ Treinado usando ControlNet e o modelo Lora, permitindo o controle da geração de design de interiores e a conversão de texto para imagem.

Teste online:https://huggingface.co/spaces/MykolaL/StableDesign

Mais poderoso que o deepfake! SwapAnything: substitui qualquer elemento em uma imagem

image.png

【Resumo AiBase:】

🔍 A estrutura SwapAnything possui vantagens como controle preciso de objetos e partes, preservação de pixels de contexto e adaptação a conceitos personalizados.

🔍 Através da troca de variáveis direcionadas e técnicas de ajuste de aparência, o SwapAnything demonstra capacidade de troca precisa e fiel.

🔍 O SwapAnything pode controlar precisamente qualquer objeto na imagem, permitindo trocas personalizadas de alta qualidade.

Acesso ao projeto:https://top.aibase.com/tool/swapanything

Endereço de teste online disponível para a ferramenta de geração de vídeo em timelapse MagicTime

image.png

【Resumo AiBase】

⭐ Vídeos em timelapse são uma técnica fotográfica que mostra mudanças ao longo do tempo.

⭐ O MagicTime pode gerar vídeos em timelapse com base em descrições de texto.

⭐ Amplamente aplicável, pode registrar fenômenos naturais e mudanças causadas pelo homem.

Endereço do projeto:https://top.aibase.com/tool/magictime

Endereço de teste:https://huggingface.co/spaces/BestWishYsh/MagicTime

Endereço de download do modelo:https://huggingface.co/Kijai/MagicTime-merged-fp16

Ferramenta de escrita automatizada STORM: pode gerar conteúdo longo e profundo como o da Wikipédia

image.png

【Resumo AiBase:】

⭐️O STORM coleta informações automaticamente, simula diálogos de especialistas e gera um esboço estruturado do artigo.

⭐️O STORM pesquisa e integra informações de múltiplos ângulos de forma eficiente, promovendo uma compreensão profunda e a geração precisa de perguntas.

⭐️Após gerar o esboço do artigo, o STORM escreve e revisa o artigo completo para melhorar a qualidade geral.

Endereço do projeto:https://top.aibase.com/tool/storm

Meta lança o modelo ViewDiff: geração de imagens 3D multiperspectivas a partir de texto

【Resumo AiBase:】

🌟 O ViewDiff resolveu os três principais desafios na geração de imagens 3D multiperspectivas a partir de texto.

🌟 O módulo de geração autorregressivo permite que o ViewDiff gere mais imagens 3D consistentes em qualquer perspectiva.

🌟 O ViewDiff preenche uma lacuna tecnológica na área de geração de imagens 3D multiperspectivas a partir de texto.

Endereço do artigo:https://arxiv.org/abs/2403.01807

Endereço do projeto:https://top.aibase.com/tool/viewdiff

📰🤖📢Notícias de IA

Primeiro programador de IA a ser pego em fraude, Devin choca novamente o Vale do Silício! Explicação detalhada em vídeo e texto anexada

图片

【Resumo AiBase:】

⭐️ Programador do YouTube expõe a fraude no vídeo do primeiro programador de IA, Devin.

⭐️ A demonstração de Devin não é tão mágica quanto parece, corrigindo bugs e criando novos bugs.

⭐️ Questionado e desmascarado, os usuários criticam a publicidade exagerada de produtos de IA.

Conteúdo detalhado:https://www.chinaz.com/2024/0415/1610127.shtml

A XAI do Musk lança o modelo multi-modal Grok-1.5Vision, que pode processar informações de texto e imagem

image.png

【Resumo AiBase:】

⭐️ O modelo Grok-1.5Vision apresenta desempenho excepcional, superando o GPT4V.

⭐️ Desempenho excelente no teste de referência RealWorldQA, compreendendo o espaço físico do mundo real.

⭐️ O modelo Grok-1.5Vision possui fortes capacidades de processamento e compreensão do espaço do mundo real.

Endereço do site:https://top.aibase.com/tool/grok-1-5-vision-preview

O modelo de linguagem grande de 7B parâmetros 360 Zhi Nao é oficialmente lançado em código aberto, suportando até cerca de 500.000 caracteres de entrada

【Resumo AiBase:】

🧠 O modelo de linguagem grande de 7B parâmetros 360 Zhi Nao é oficialmente lançado em código aberto.

🧩 Suporta versões de diferentes comprimentos de texto, podendo processar textos longos de até 360K caracteres.

🔥 Apresenta excelente desempenho em testes de capacidade, classificando-se entre os três primeiros em capacidade geral.

Endereço do projeto:https://github.com/Qihoo360/360zhinao

O conjunto de dados de treinamento do IA de geração de imagens da Adobe, "Firefly", contém cerca de 5% de imagens de IA

【Resumo AiBase:】

⭐ O Adobe Stock começa a aceitar conteúdo de IA, com cerca de 14% de imagens geradas por IA.

⭐ Os estudiosos apontam que o Firefly aprendeu com imagens geradas pelo Midjourney, diferente do que foi afirmado.

⭐ Os usuários expressaram insatisfação com a Adobe por usar suas obras para treinar o Firefly.

Código e modelo totalmente abertos! O modelo multi-modal Mini-Gemini da equipe de Jia Jiaya chega ao topo das paradas

image.png

【Resumo AiBase:】

⭐️ O modelo Mini-Gemini alcançou resultados notáveis em tarefas multimodais, com código e dados de modelo abertos.

⭐️ O Mini-Gemini combina compreensão e geração de imagens, mostrando excelente capacidade de raciocínio de imagens.

⭐️ Empregando o método de mineração de informações de dois ramos visuais Gemini, ele processa efetivamente imagens de alta resolução e gera conteúdo visual e textual rico.

Endereço do projeto:https://top.aibase.com/tool/mini-gemini

Endereço de teste: https://103.170.5.190:7860/

A equipe de inteligência artificial de Mianbi lança os modelos da série MiniCPM2.0, com capacidades aprimoradas de OCR

【Resumo AiBase:】

⭐ O MiniCPM-V2.0 é o modelo multi-modal mais poderoso para dispositivos móveis, com poderosas capacidades de OCR.

⭐ O MiniCPM-1.2B é um modelo base adaptado para cenários de dispositivos móveis, com alta velocidade de inferência e baixo custo.

⭐ O MiniCPM-2B-128K é o menor modelo de texto longo atualmente disponível, processando conteúdo de texto de 128K.

MiniCPM-V2.0:

https://github.com/OpenBMB/MiniCPM-V

MiniCPM endereço de código aberto da série:

https://github.com/OpenBMB/MiniCPM

MiniCPM endereço do blog técnico:

https://openbmb.vercel.app/?category=Chinese+Blog

A competição esquenta! Crescimento do ChatGPT esfria, com 1,77 bilhão de acessos globais em março, enquanto o Claude ganha força

【Resumo AiBase:】

📉 O crescimento do número de acessos globais do ChatGPT desacelerou, apesar do lançamento de novos recursos.

🚀 O Claude da Anthropic está crescendo rapidamente no mercado europeu, intensificando a competição com o ChatGPT.

💥 Após o lançamento do Claude3, o crescimento contínuo e rápido mostra o potencial do novo produto.

A equipe InstantID lança um novo método de transferência de estilo InstantStyle, permitindo que você esteja instantaneamente em "A Noite Estrelada" de Van Gogh

image.png

【Resumo AiBase:】

⭐️ Subtração de recursos: usando as características do modelo CLIP, a informação de conteúdo é removida através da subtração de recursos, realizando o desacoplamento de estilo e conteúdo.

⭐️ Injeção apenas na camada de estilo: a injeção de recursos é realizada em uma camada de estilo específica, realizando o desacoplamento de estilo e conteúdo.

⭐️ Alta versatilidade: o método InstantStyle é versátil, fornecendo uma implementação de código rica e suportando vários cenários de aplicação.

Endereço do projeto:https://top.aibase.com/tool/instantstyle

Teste online:https://huggingface.co/spaces/InstantX/InstantStyle

——————

Prompt diário do Midjourney: mulher bonita em estilo chinês antigo