Bem-vindo ao programa "Diário de IA"! Aqui é o seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os conteúdos mais recentes no campo da IA, focando nos desenvolvedores, ajudando você a compreender as tendências tecnológicas e conhecer aplicações inovadoras de produtos de IA.

Novos produtos de IA clicar para obter mais informações:https://top.aibase.com/

1. Alibaba lança Qwen-Image-Edit: renderização em chinês que supera o GPT-4o, controle preciso de edição de texto e aparência semântica

O Qwen-Image-Edit é um modelo de edição de imagem lançado pela equipe Tongyi Qianwen da Alibaba. Com sua forte capacidade de edição de texto e mecanismo de codificação duplo, ele se destaca na renderização em chinês e na edição de imagens, tendo amplas perspectivas de aplicação.

image.png

【Resumo do AiBase:】

🔥 Capacidade revolucionária de edição de texto, suporta renderização precisa em chinês e inglês, especialmente notável em cenários chineses.

🧠 Mecanismo de codificação dupla garante o equilíbrio entre significado e aparência, melhorando a precisão e a consistência visual da edição de imagens.

🚀 O código aberto impulsiona a ecologia de criação de IA global, oferecendo suporte a várias plataformas e ferramentas, promovendo a difusão e a aplicação da tecnologia.

Link detalhado: https://github.com/QwenLM/Qwen-Image

2. Função "AI Universal Search" do Taobao em teste limitado, explorando novo modelo de compra online

O Taobao está testando uma nova função chamada "AI Universal Search", que reestrutura a experiência de busca no comércio eletrônico utilizando tecnologia de grandes modelos. Essa função fornece aos usuários serviços como dicas de compras, avaliações de reputação e consultas de ofertas, além de mostrar o processo de pensamento da IA.

image.png

【Resumo do AiBase:】

✨ A "AI Universal Search" baseia-se em tecnologia de grandes modelos, aumentando a eficiência das decisões de compra dos usuários.

🛒 A função se concentra em quatro cenários: orientação de roupas, listas de presentes, dicas de compra e consultas de reputação.

🔍 Os usuários podem ver claramente a lógica de pensamento da IA, incluindo obtenção de informações, consulta de necessidades e análise e resumo.

3. Xiaohongshu lança tecnologia de geração de rosto DynamicFace, realizando fusão de rostos em imagens e vídeos de alta qualidade

A equipe de AIGC da Xiaohongshu lançou uma tecnologia de geração de rosto controlável chamada DynamicFace, otimizada para tarefas de fusão de rostos em imagens e vídeos, capaz de realizar resultados de substituição de rosto de alta qualidade e alta consistência. Essa tecnologia tem amplo potencial de aplicação em áreas de entretenimento e socialização, bem como em campos profissionais como produção cinematográfica e geração de personagens virtuais.

image.png

【Resumo do AiBase:】

🧠 A tecnologia DynamicFace enfatiza a controlabilidade, permitindo que os usuários controlem exatamente o processo de geração de rostos.

🎥 A tecnologia foi otimizada nas duas dimensões de imagens e vídeos, destacando-se especialmente na manutenção de alta consistência.

🔒 Durante o lançamento dessa tecnologia, como a Xiaohongshu equilibra inovação e segurança será algo que a indústria observará atentamente.

4. Gemini API lança uma atualização importante! Funcionalidade URL Context disponível, trazendo um novo modelo de monetização de conteúdo de sites!

O Gemini API lançou a funcionalidade URL Context, permitindo que os desenvolvedores insiram links de páginas web diretamente na API, simplificando o processo de obtenção de conteúdo e trazendo novas oportunidades comerciais para fornecedores de conteúdo e desenvolvedores. Essa funcionalidade melhora a eficiência de desenvolvimento e pode gerar novos modelos de negócios, como mecanismos de associação semelhantes ao AdSense.

image.png

【Resumo do AiBase:】

🌍 A funcionalidade URL Context permite que os desenvolvedores forneçam links de páginas web diretamente nos prompts, e o modelo acessa e analisa automaticamente o conteúdo, melhorando a eficiência de desenvolvimento.

💰 Ao usar URL Context, o conteúdo extraído será contabilizado nos tokens de entrada, exigindo uma avaliação cuidadosa entre custo e volume de conteúdo.

🤝 Novos modelos de negócios podem ser implementados por meio de mecanismos de associação, onde os fornecedores de conteúdo podem dividir lucros com base nos custos de tokens, incentivando a criação de conteúdo de alta qualidade.

Link detalhado: https://ai.google.dev/gemini-api/docs/url-context?hl=zh-cn

5. Nvidia lança novo modelo pequeno aberto Nemotron-Nano-9B-v2, suporte a interruptor de raciocínio inteligente

A Nvidia lançou um novo modelo linguístico pequeno chamado Nemotron-Nano-9B-v2, que se saiu bem em vários benchmarks e permite aos usuários controlar flexivelmente a funcionalidade de raciocínio. Sua quantidade de parâmetros é de 9 bilhões, otimizado para uma única GPU Nvidia A10, adequado para tarefas multilíngues e geração de código.

image.png

【Resumo do AiBase:】

🌟 O Nemotron-Nano-9B-v2 é um novo modelo linguístico pequeno, suportando o controle flexível da funcionalidade de raciocínio pelos usuários.

⚙️ O modelo é baseado em arquitetura híbrida, capaz de processar informações de sequência longa de forma eficiente, adequado para tarefas multilíngues.

📊 Lançado sob licença de modelo aberto, permite uso comercial e criação de modelos derivados.

Link detalhado: https://huggingface.co/nvidia/NVIDIA-Nemotron-Nano-9B-v2

6. Musk lança versão 0.1 do Grok Imagine, ambição de criar o maior "amplificador de imaginação" do universo

Musk anunciou no plataforma X que a funcionalidade de geração de imagens Grok Imagine da empresa de IA xAI está em versão beta 0.1 e expressou suas ambições para seu futuro. Essa funcionalidade visa competir com ferramentas principais de geração de imagens de IA, como DALL-E e Midjourney, ao mesmo tempo que deseja se tornar uma plataforma inovadora para expandir o pensamento criativo dos usuários.

image.png

【Resumo do AiBase:】

🔥 Grok Imagine é uma funcionalidade de geração de imagens lançada pela xAI, visando competir com DALL-E e Midjourney.

🚀 Musk reconheceu publicamente que a versão atual ainda precisa de aprimoramentos, mas tem confiança total no futuro.

💡 A funcionalidade é posicionada como um "amplificador de imaginação", destinada a ajudar os usuários a expandir seus pensamentos criativos e limites imaginativos.

7. Vercel v0 para iOS: uma nova era de desenvolvimento móvel impulsionado por IA

O Vercel lançou a versão iOS de sua ferramenta de desenvolvimento impulsionada por IA chamada v0, oferecendo aos desenvolvedores móveis uma nova experiência de construção. Essa ferramenta gera aplicativos Web completos com base em dicas de linguagem natural, melhorando significativamente a eficiência de desenvolvimento e se destacando especialmente nos frameworks React e Next.js, recebendo ampla aceitação.

image.png

【Resumo do AiBase:】

🚀 O Vercel v0 para iOS foi oficialmente lançado, trazendo uma nova experiência de construção para desenvolvedores móveis.

💡 Utiliza dicas de linguagem natural para gerar aplicativos Web completos, melhorando a eficiência de desenvolvimento.

🌐 Agora está disponível a lista de espera, convidando os desenvolvedores a experimentá-lo primeiro.

Link detalhado: https://v0.app/ios

8. Ideal Motors lança modelo de agente MindGPT 3.1, velocidade de saída de 200 caracteres por segundo aumentada em 5 vezes

A Ideal Motors lançou o modelo de agente MindGPT 3.1, que melhorou significativamente a capacidade de processamento em tempo real e coordenação de múltiplas tarefas do assistente de IA. Além disso, em dimensões-chave como cálculos matemáticos e programação de código, ele superou significativamente a versão anterior, demonstrando sua força técnica no campo de grandes modelos de IA.

image.png

【Resumo do AiBase:】

🧠 O MindGPT 3.1 integra profundamente as capacidades de agente na arquitetura de grandes modelos, suportando a função de "pensar e pesquisar ao mesmo tempo".

⚡ A velocidade de saída máxima chega a 200 tokens por segundo, com desempenho melhorado em quase 5 vezes.

💻 A capacidade de código foi aprimorada, podendo realizar exemplos clássicos de programação como jogos de "Snake" e controle de "Bola".

9. Tecnologia de IA simplifica o processo de produção de anime, o ToonComposer realiza coloração automática e geração de animações

O ToonComposer é uma ferramenta inovadora baseada em tecnologia de IA generativa, que pode simplificar significativamente o processo de produção de animação. Os usuários precisam apenas fornecer um esboço e uma imagem colorida de quadro único para gerar um vídeo de desenho animado completo, economizando até 70% do tempo de trabalho manual. Essa tecnologia também suporta funções de controle de quadro-chave e controle de área, melhorando a eficiência criativa.

image.png

【Resumo do AiBase:】

🎨 O ToonComposer utiliza tecnologia de IA generativa para simplificar o processo de produção de animação, permitindo que os usuários gerem um vídeo de desenho animado completo com apenas um esboço e uma imagem colorida de quadro único.

⏳ O sistema pode economizar até 70% do tempo de trabalho manual, permitindo que os criadores foquem na criatividade.

🖌️ Oferece função de controle de área, onde os usuários podem marcar livremente as áreas do esboço, e o sistema preenche-as de forma inteligente, melhorando a eficiência criativa.

Link detalhado: https://lg-li.github.io/project/tooncomposer/

10. ElevenLabs lança novo fluxo de geração de música a partir de vídeo

A ElevenLabs lançou um fluxo de geração de música a partir de vídeo e um pacote de estudantes de IA, oferecendo ferramentas de criação mais eficientes e econômicas para criadores de conteúdo e estudantes. Essas atualizações reforçam ainda mais a posição de liderança da ElevenLabs no campo de áudio de IA.

image.png

【Resumo do AiBase:】

🎥 Fluxo de geração de música a partir de vídeo: gere trilhas sonoras personalizadas com base no conteúdo do vídeo.

🎓 Pacote de estudantes de IA: fornece créditos gratuitos e ferramentas com desconto, apoiando aplicações no setor educacional.

🌐 Avanços técnicos e comerciais: estenda as capacidades multimodais e promova a atualização da ecosfera de áudio de IA.