Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

1、 Google em alerta: Veo, o modelo de vídeo, enfrenta o GPT-4o e o Sora

O Google lançou recentemente uma série de poderosas ferramentas de IA, incluindo o Project Astra, o modelo de vídeo Veo e o Gemini 1.5 Pro, com o objetivo de revolucionar a pesquisa do Google e desafiar a OpenAI. O modelo de vídeo Veo é considerado uma resposta direta ao Sora da OpenAI, apresentando um incrível realismo cinematográfico e efeitos de geração profissional. O Google combinou vários avanços inovadores para melhorar a consistência, a qualidade e a resolução da geração de vídeo. As ferramentas de IA lançadas marcam o contínuo progresso e inovação do Google no campo da inteligência artificial, e a competição continuará a se intensificar.

image.png

【AiBase destaca】

🔸 A poderosa ferramenta Project Astra, com reconhecimento visual e interação de voz, se compara ao GPT-4o.

🔸 O Gemini 1.5 Pro possui uma janela de contexto extra-longa, com até 2 milhões de tokens, e está disponível para uso pessoal.

🔸 O modelo de vídeo Veo enfrenta o Sora, gerando vídeos não apenas realistas, mas também com incrível realismo cinematográfico em termos de iluminação e composição.

Link de inscrição para geração de vídeo Veo: https://aitestkitchen.withgoogle.com/tools/video-fx

Link para experimentar o Gemini: https://aistudio.google.com/app/prompts/new_chat

2、 Microsoft anuncia a disponibilidade do modelo GPT-4o no Azure OpenAI

A Microsoft anunciou que o mais recente modelo multimodais GPT-4o agora está disponível no Azure OpenAI. Este modelo suporta raciocínio multimodais através de texto, vídeo e áudio, possuindo poderosas capacidades de interpretação e saída multimodais. O GPT-4o tem amplas perspectivas de aplicação em educação, aprendizagem de línguas e avaliação de imagem.

【AiBase destaca:】

🔸 O GPT-4o suporta raciocínio multimodais através de texto, vídeo e áudio, mostrando poderosas capacidades de interpretação e saída multimodais.

🔸 Na área da educação, pode funcionar como um assistente de tutoria de IA, ajudando os alunos a responder perguntas e realizar traduções de idiomas em tempo real.

🔸 Apresenta excelente desempenho no aprendizado de idiomas, usando vídeo para aprender espanhol, e tem amplas perspectivas de aplicação na área de avaliação de imagem.

3、 ByteDance lança oficialmente a série de modelos de linguagem grandes Doubao

Na conferência de primavera de 2024 da Volcano Engine FORCE, a ByteDance lançou a série de modelos de linguagem grandes Doubao, demonstrando seu profundo acúmulo e capacidade de inovação na área de inteligência artificial. O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor. Este resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.

image.png

【AiBase destaca:】

✨ A ByteDance lança a série de modelos de linguagem grandes Doubao, incluindo nove modelos, demonstrando profundo acúmulo tecnológico e capacidade de inovação.

🚀 O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor.

💡 O resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.

Detalhes: https://www.chinaz.com/2024/0515/1616629.shtml

4、 Alibaba International lança ferramenta de prova virtual de IA, concluída em 1 minuto

A ferramenta de prova virtual de IA lançada pela Pic, subsidiária da Alibaba International, trouxe economia de custos e aumento de eficiência revolucionários para comerciantes de roupas. Os comerciantes precisam apenas enviar imagens de roupas e selecionar modelos para gerar imagens de produtos com efeitos de estúdio profissional em pouco tempo, com um custo médio de apenas 0,2 a 0,3 yuans chineses. Esta ferramenta não apenas simplifica o processo de filmagem, mas também garante a legalidade da autorização do modelo, sendo calorosamente recebida pelos comerciantes norte-americanos na Feira de Cantão.

image.png

【AiBase destaca:】

👗 A ferramenta de prova virtual de IA ajuda os comerciantes de roupas a economizar custos de filmagem, gerando imagens de produtos com modelos vestindo as roupas.

📸 O recurso de prova virtual suporta o envio de imagens de peças de cima e de baixo, reconhece roupas inteiriças e gera imagens de exibição com diferentes efeitos.

💰 O custo médio para os comerciantes que utilizam o recurso de prova virtual é de 0,2 a 0,3 yuans chineses, reduzindo significativamente os custos de filmagem e impulsionando as vendas de produtos no mercado global.

5、 Tencent lança modelo de geração de imagens de código aberto Hunyuan-DiT, capaz de gerar e refinar imagens com base no contexto da conversa

Este artigo apresenta o modelo de geração de imagens de código aberto Hunyuan-DiT da Tencent, que possui uma capacidade de compreensão detalhada do chinês e do inglês e pode gerar e refinar imagens com base no contexto da conversa. O Hunyuan-DiT combina a estrutura Transformer, codificação de texto e codificação de posição para treinar um modelo de linguagem grande multimodais, trazendo resultados significativos para a tarefa de geração de imagens. Este modelo tem amplas perspectivas de aplicação nas áreas de processamento de linguagem natural e geração de imagens.

【AiBase destaca:】

🔑 O Hunyuan-DiT utiliza a estrutura Transformer, obtendo sucesso na área de processamento de texto.

🔑 Através da codificação de texto e codificação de posição, o Hunyuan-DiT consegue uma compreensão granular do chinês.

🔑 O treinamento de um modelo de linguagem grande multimodais permite que o Hunyuan-DiT gere descrições de imagens precisas e descritivas.

Link para detalhes: https://github.com/Tencent/HunyuanDiT

6、 ElevenLabs lança API de dublagem, permitindo que desenvolvedores adicionem recursos de tradução de áudio ou vídeo em seus produtos

A ElevenLabs lançou recentemente a API de dublagem, oferecendo aos desenvolvedores a conveniência de adicionar recursos de tradução de áudio ou vídeo em seus produtos. Esta API suporta tradução para 29 idiomas e preserva as características de voz do orador original. Os desenvolvedores podem usar rapidamente o tutorial Python e a referência da API para integrá-la facilmente às principais linguagens de programação. A ElevenLabs também lançou o ElevenLabs Music, um produto de geração de músicas a partir de texto, demonstrando excelente desempenho e capacidade criativa em música.

image.png

【AiBase destaca:】

🔊 A API de dublagem permite traduzir áudio ou vídeo para 29 idiomas, preservando as características da voz original.

🎶 O ElevenLabs Music apresenta excelente desempenho na música, incluindo ritmo, harmonia e criatividade.

🎤 Os principais produtos da ElevenLabs incluem clonagem de voz, conversão de texto em fala e soluções de dublagem de IA.

Link para detalhes: https://elevenlabs.io/docs/api-reference/create-dub

7、 MiniMax lança o "assistente de vida" 海螺 AI

A MiniMax lançou um produto chamado "海螺 AI" (Heilo AI), um assistente de vida para estudantes, recém-formados, trabalhadores autônomos, criadores e outros grupos, oferecendo um "cérebro externo" e um assistente de vida para ajudar a aliviar a pressão causada pela sobrecarga de informações e pelo ritmo acelerado de trabalho. O Heilo AI é inteligente e eficiente, suporta o processamento de conteúdo longo, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação. Ele já está em uso generalizado, resolvendo problemas de usuários 24 horas por dia, 7 dias por semana, com a esperança de acompanhar os usuários em diferentes estágios da vida.

image.png

【AiBase destaca:】

🧠 Inteligente e eficiente: O Heilo AI utiliza um modelo de linguagem grande multimodais autodesenvolvido, suportando o processamento de conteúdo longo e apresentando características inteligentes e eficientes.

💬 Interação humanizada: O produto é amigável, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação, como entrada de texto, envio de arquivos e comunicação por voz.

🌟 Aplicação em vários grupos: Desde estudantes que se preparam para exames até funcionários de grandes empresas, vários grupos de usuários o utilizam, mostrando sua versatilidade.

8、 Android está prestes a lançar um recurso de detecção de chamadas de spam baseado em IA

O Google está desenvolvendo um novo recurso de proteção que utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam. Os usuários receberão alertas em tempo real e serão incentivados a encerrar chamadas suspeitas. Este recurso monitora no próprio dispositivo, mantendo a privacidade da conversa e ajudando a prevenir fraudes.

image.png

【AiBase destaca:】

🔍 Utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam, fornecendo alertas em tempo real.

🚫 Os usuários receberão alertas para encerrar chamadas suspeitas, evitando o vazamento de informações pessoais ou fraudes.

💡 O Gemini Nano atualmente só é compatível com os telefones Google Pixel 8 Pro e Samsung S24, limitando o alcance do recurso.

9、 Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome

O Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome, o que significa que os usuários poderão gerar postagens em mídias sociais, avaliações de produtos e outros conteúdos diretamente no navegador. Ao mesmo tempo, fornecerá aos desenvolvedores sugestões para explicar erros e corrigir códigos. O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.

【AiBase destaca:】

✨ O Gemini Nano será integrado diretamente ao navegador Chrome, permitindo que os usuários gerem postagens em mídias sociais, avaliações de produtos e outros conteúdos.

🔧 O Gemini Nano, como parte do Chrome DevTools, fornece aos desenvolvedores sugestões para explicar erros e corrigir códigos.

⚡ O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.

10、 Google lança novo modelo de IA LearnLM, focado na área da educação

O novo modelo de IA LearnLM lançado pelo Google visa ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico. Através da integração com outros produtos do Google, ele fornece várias funções de auxílio ao aprendizado, como simplificar planos de aula, responder a perguntas de matemática e física, etc.

image.png

【AiBase destaca:】

🤖 O LearnLM é um modelo de IA baseado no Gemini, desenvolvido pelo Google, com o objetivo de ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico.

📚 O LearnLM pode encontrar e apresentar exemplos de tópicos de várias maneiras, orientar os alunos nos estudos e despertar o interesse no aprendizado.

💡 O LearnLM já está integrado à pesquisa do Google, Android, YouTube e ao chatbot Gem, simplificando planos de aula, respondendo a perguntas de vídeo e fornecendo funções de especialistas pessoais.

Link para detalhes: https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

11、 Google expande a tecnologia de marca d'água de conteúdo de IA para vídeo e texto

O Google anunciou que expandirá sua tecnologia de marca d'água de conteúdo de IA para vídeo e texto, introduzindo a nova tecnologia de marca d'água digital SynthID para marcar conteúdo gerado por IA. Esta medida é de grande importância para lidar com desinformação política e a disseminação de conteúdo prejudicial.

【AiBase destaca:】

🔍 O SynthID é uma nova tecnologia de marca d'água digital que pode marcar vídeos e textos gerados por IA.

🛡️ A marca d'água digital não é perceptível a olho nu, mas pode ser detectada por sistemas, podendo lidar com desinformação política e a disseminação de conteúdo prejudicial.

🌐 As marcas d'água digitais para conteúdo gerado por IA estão se tornando cada vez mais importantes, especialmente quando a IA é usada indevidamente, e o SynthID do Google é um exemplo disso.