Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.
1、 Google em alerta: Veo, o modelo de vídeo, enfrenta o GPT-4o e o Sora
O Google lançou recentemente uma série de poderosas ferramentas de IA, incluindo o Project Astra, o modelo de vídeo Veo e o Gemini 1.5 Pro, com o objetivo de revolucionar a pesquisa do Google e desafiar a OpenAI. O modelo de vídeo Veo é considerado uma resposta direta ao Sora da OpenAI, apresentando um incrível realismo cinematográfico e efeitos de geração profissional. O Google combinou vários avanços inovadores para melhorar a consistência, a qualidade e a resolução da geração de vídeo. As ferramentas de IA lançadas marcam o contínuo progresso e inovação do Google no campo da inteligência artificial, e a competição continuará a se intensificar.

【AiBase destaca】
🔸 A poderosa ferramenta Project Astra, com reconhecimento visual e interação de voz, se compara ao GPT-4o.
🔸 O Gemini 1.5 Pro possui uma janela de contexto extra-longa, com até 2 milhões de tokens, e está disponível para uso pessoal.
🔸 O modelo de vídeo Veo enfrenta o Sora, gerando vídeos não apenas realistas, mas também com incrível realismo cinematográfico em termos de iluminação e composição.
Link de inscrição para geração de vídeo Veo: https://aitestkitchen.withgoogle.com/tools/video-fx
Link para experimentar o Gemini: https://aistudio.google.com/app/prompts/new_chat
2、 Microsoft anuncia a disponibilidade do modelo GPT-4o no Azure OpenAI
A Microsoft anunciou que o mais recente modelo multimodais GPT-4o agora está disponível no Azure OpenAI. Este modelo suporta raciocínio multimodais através de texto, vídeo e áudio, possuindo poderosas capacidades de interpretação e saída multimodais. O GPT-4o tem amplas perspectivas de aplicação em educação, aprendizagem de línguas e avaliação de imagem.
【AiBase destaca:】
🔸 O GPT-4o suporta raciocínio multimodais através de texto, vídeo e áudio, mostrando poderosas capacidades de interpretação e saída multimodais.
🔸 Na área da educação, pode funcionar como um assistente de tutoria de IA, ajudando os alunos a responder perguntas e realizar traduções de idiomas em tempo real.
🔸 Apresenta excelente desempenho no aprendizado de idiomas, usando vídeo para aprender espanhol, e tem amplas perspectivas de aplicação na área de avaliação de imagem.
3、 ByteDance lança oficialmente a série de modelos de linguagem grandes Doubao
Na conferência de primavera de 2024 da Volcano Engine FORCE, a ByteDance lançou a série de modelos de linguagem grandes Doubao, demonstrando seu profundo acúmulo e capacidade de inovação na área de inteligência artificial. O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor. Este resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.

【AiBase destaca:】
✨ A ByteDance lança a série de modelos de linguagem grandes Doubao, incluindo nove modelos, demonstrando profundo acúmulo tecnológico e capacidade de inovação.
🚀 O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor.
💡 O resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.
Detalhes: https://www.chinaz.com/2024/0515/1616629.shtml
4、 Alibaba International lança ferramenta de prova virtual de IA, concluída em 1 minuto
A ferramenta de prova virtual de IA lançada pela Pic, subsidiária da Alibaba International, trouxe economia de custos e aumento de eficiência revolucionários para comerciantes de roupas. Os comerciantes precisam apenas enviar imagens de roupas e selecionar modelos para gerar imagens de produtos com efeitos de estúdio profissional em pouco tempo, com um custo médio de apenas 0,2 a 0,3 yuans chineses. Esta ferramenta não apenas simplifica o processo de filmagem, mas também garante a legalidade da autorização do modelo, sendo calorosamente recebida pelos comerciantes norte-americanos na Feira de Cantão.

【AiBase destaca:】
👗 A ferramenta de prova virtual de IA ajuda os comerciantes de roupas a economizar custos de filmagem, gerando imagens de produtos com modelos vestindo as roupas.
📸 O recurso de prova virtual suporta o envio de imagens de peças de cima e de baixo, reconhece roupas inteiriças e gera imagens de exibição com diferentes efeitos.
💰 O custo médio para os comerciantes que utilizam o recurso de prova virtual é de 0,2 a 0,3 yuans chineses, reduzindo significativamente os custos de filmagem e impulsionando as vendas de produtos no mercado global.
5、 Tencent lança modelo de geração de imagens de código aberto Hunyuan-DiT, capaz de gerar e refinar imagens com base no contexto da conversa
Este artigo apresenta o modelo de geração de imagens de código aberto Hunyuan-DiT da Tencent, que possui uma capacidade de compreensão detalhada do chinês e do inglês e pode gerar e refinar imagens com base no contexto da conversa. O Hunyuan-DiT combina a estrutura Transformer, codificação de texto e codificação de posição para treinar um modelo de linguagem grande multimodais, trazendo resultados significativos para a tarefa de geração de imagens. Este modelo tem amplas perspectivas de aplicação nas áreas de processamento de linguagem natural e geração de imagens.
【AiBase destaca:】
🔑 O Hunyuan-DiT utiliza a estrutura Transformer, obtendo sucesso na área de processamento de texto.
🔑 Através da codificação de texto e codificação de posição, o Hunyuan-DiT consegue uma compreensão granular do chinês.
🔑 O treinamento de um modelo de linguagem grande multimodais permite que o Hunyuan-DiT gere descrições de imagens precisas e descritivas.
Link para detalhes: https://github.com/Tencent/HunyuanDiT
6、 ElevenLabs lança API de dublagem, permitindo que desenvolvedores adicionem recursos de tradução de áudio ou vídeo em seus produtos
A ElevenLabs lançou recentemente a API de dublagem, oferecendo aos desenvolvedores a conveniência de adicionar recursos de tradução de áudio ou vídeo em seus produtos. Esta API suporta tradução para 29 idiomas e preserva as características de voz do orador original. Os desenvolvedores podem usar rapidamente o tutorial Python e a referência da API para integrá-la facilmente às principais linguagens de programação. A ElevenLabs também lançou o ElevenLabs Music, um produto de geração de músicas a partir de texto, demonstrando excelente desempenho e capacidade criativa em música.

【AiBase destaca:】
🔊 A API de dublagem permite traduzir áudio ou vídeo para 29 idiomas, preservando as características da voz original.
🎶 O ElevenLabs Music apresenta excelente desempenho na música, incluindo ritmo, harmonia e criatividade.
🎤 Os principais produtos da ElevenLabs incluem clonagem de voz, conversão de texto em fala e soluções de dublagem de IA.
Link para detalhes: https://elevenlabs.io/docs/api-reference/create-dub
7、 MiniMax lança o "assistente de vida" 海螺 AI
A MiniMax lançou um produto chamado "海螺 AI" (Heilo AI), um assistente de vida para estudantes, recém-formados, trabalhadores autônomos, criadores e outros grupos, oferecendo um "cérebro externo" e um assistente de vida para ajudar a aliviar a pressão causada pela sobrecarga de informações e pelo ritmo acelerado de trabalho. O Heilo AI é inteligente e eficiente, suporta o processamento de conteúdo longo, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação. Ele já está em uso generalizado, resolvendo problemas de usuários 24 horas por dia, 7 dias por semana, com a esperança de acompanhar os usuários em diferentes estágios da vida.

【AiBase destaca:】
🧠 Inteligente e eficiente: O Heilo AI utiliza um modelo de linguagem grande multimodais autodesenvolvido, suportando o processamento de conteúdo longo e apresentando características inteligentes e eficientes.
💬 Interação humanizada: O produto é amigável, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação, como entrada de texto, envio de arquivos e comunicação por voz.
🌟 Aplicação em vários grupos: Desde estudantes que se preparam para exames até funcionários de grandes empresas, vários grupos de usuários o utilizam, mostrando sua versatilidade.
8、 Android está prestes a lançar um recurso de detecção de chamadas de spam baseado em IA
O Google está desenvolvendo um novo recurso de proteção que utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam. Os usuários receberão alertas em tempo real e serão incentivados a encerrar chamadas suspeitas. Este recurso monitora no próprio dispositivo, mantendo a privacidade da conversa e ajudando a prevenir fraudes.

【AiBase destaca:】
🔍 Utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam, fornecendo alertas em tempo real.
🚫 Os usuários receberão alertas para encerrar chamadas suspeitas, evitando o vazamento de informações pessoais ou fraudes.
💡 O Gemini Nano atualmente só é compatível com os telefones Google Pixel 8 Pro e Samsung S24, limitando o alcance do recurso.
9、 Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome
O Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome, o que significa que os usuários poderão gerar postagens em mídias sociais, avaliações de produtos e outros conteúdos diretamente no navegador. Ao mesmo tempo, fornecerá aos desenvolvedores sugestões para explicar erros e corrigir códigos. O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.
【AiBase destaca:】
✨ O Gemini Nano será integrado diretamente ao navegador Chrome, permitindo que os usuários gerem postagens em mídias sociais, avaliações de produtos e outros conteúdos.
🔧 O Gemini Nano, como parte do Chrome DevTools, fornece aos desenvolvedores sugestões para explicar erros e corrigir códigos.
⚡ O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.
10、 Google lança novo modelo de IA LearnLM, focado na área da educação
O novo modelo de IA LearnLM lançado pelo Google visa ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico. Através da integração com outros produtos do Google, ele fornece várias funções de auxílio ao aprendizado, como simplificar planos de aula, responder a perguntas de matemática e física, etc.

【AiBase destaca:】
🤖 O LearnLM é um modelo de IA baseado no Gemini, desenvolvido pelo Google, com o objetivo de ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico.
📚 O LearnLM pode encontrar e apresentar exemplos de tópicos de várias maneiras, orientar os alunos nos estudos e despertar o interesse no aprendizado.
💡 O LearnLM já está integrado à pesquisa do Google, Android, YouTube e ao chatbot Gem, simplificando planos de aula, respondendo a perguntas de vídeo e fornecendo funções de especialistas pessoais.
Link para detalhes: https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/
11、 Google expande a tecnologia de marca d'água de conteúdo de IA para vídeo e texto
O Google anunciou que expandirá sua tecnologia de marca d'água de conteúdo de IA para vídeo e texto, introduzindo a nova tecnologia de marca d'água digital SynthID para marcar conteúdo gerado por IA. Esta medida é de grande importância para lidar com desinformação política e a disseminação de conteúdo prejudicial.
【AiBase destaca:】
🔍 O SynthID é uma nova tecnologia de marca d'água digital que pode marcar vídeos e textos gerados por IA.
🛡️ A marca d'água digital não é perceptível a olho nu, mas pode ser detectada por sistemas, podendo lidar com desinformação política e a disseminação de conteúdo prejudicial.
🌐 As marcas d'água digitais para conteúdo gerado por IA estão se tornando cada vez mais importantes, especialmente quando a IA é usada indevidamente, e o SynthID do Google é um exemplo disso.




