AI Diário: Google desafia GPT-4 e Sora com sua arma definitiva; ByteDance lança família de modelos de linguagem “Doubao”; Alibaba apresenta novo provador virtual com IA; Tencent lança modelo de geração de imagens MixYuan de código aberto

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

1、 Google em alerta: Veo, o modelo de vídeo, enfrenta o GPT-4o e o Sora

O Google lançou recentemente uma série de poderosas ferramentas de IA, incluindo o Project Astra, o modelo de vídeo Veo e o Gemini 1.5 Pro, com o objetivo de revolucionar a pesquisa do Google e desafiar a OpenAI. O modelo de vídeo Veo é considerado uma resposta direta ao Sora da OpenAI, apresentando um incrível realismo cinematográfico e efeitos de geração profissional. O Google combinou vários avanços inovadores para melhorar a consistência, a qualidade e a resolução da geração de vídeo. As ferramentas de IA lançadas marcam o contínuo progresso e inovação do Google no campo da inteligência artificial, e a competição continuará a se intensificar.

【AiBase destaca】
🔸 A poderosa ferramenta Project Astra, com reconhecimento visual e interação de voz, se compara ao GPT-4o.
🔸 O Gemini 1.5 Pro possui uma janela de contexto extra-longa, com até 2 milhões de tokens, e está disponível para uso pessoal.
🔸 O modelo de vídeo Veo enfrenta o Sora, gerando vídeos não apenas realistas, mas também com incrível realismo cinematográfico em termos de iluminação e composição.
Link de inscrição para geração de vídeo Veo: https://aitestkitchen.withgoogle.com/tools/video-fx
Link para experimentar o Gemini: https://aistudio.google.com/app/prompts/new_chat

2、 Microsoft anuncia a disponibilidade do modelo GPT-4o no Azure OpenAI

A Microsoft anunciou que o mais recente modelo multimodais GPT-4o agora está disponível no Azure OpenAI. Este modelo suporta raciocínio multimodais através de texto, vídeo e áudio, possuindo poderosas capacidades de interpretação e saída multimodais. O GPT-4o tem amplas perspectivas de aplicação em educação, aprendizagem de línguas e avaliação de imagem.

【AiBase destaca:】
🔸 O GPT-4o suporta raciocínio multimodais através de texto, vídeo e áudio, mostrando poderosas capacidades de interpretação e saída multimodais.
🔸 Na área da educação, pode funcionar como um assistente de tutoria de IA, ajudando os alunos a responder perguntas e realizar traduções de idiomas em tempo real.
🔸 Apresenta excelente desempenho no aprendizado de idiomas, usando vídeo para aprender espanhol, e tem amplas perspectivas de aplicação na área de avaliação de imagem.

3、 ByteDance lança oficialmente a série de modelos de linguagem grandes Doubao

Na conferência de primavera de 2024 da Volcano Engine FORCE, a ByteDance lançou a série de modelos de linguagem grandes Doubao, demonstrando seu profundo acúmulo e capacidade de inovação na área de inteligência artificial. O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor. Este resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.

【AiBase destaca:】
✨ A ByteDance lança a série de modelos de linguagem grandes Doubao, incluindo nove modelos, demonstrando profundo acúmulo tecnológico e capacidade de inovação.
🚀 O modelo de linguagem grandes Doubao já é amplamente utilizado internamente, e seus serviços externos impulsionarão a atualização inteligente do setor.
💡 O resultado inovador reflete o acúmulo tecnológico da ByteDance e sua visão para o futuro desenvolvimento da IA.
Detalhes: https://www.chinaz.com/2024/0515/1616629.shtml

4、 Alibaba International lança ferramenta de prova virtual de IA, concluída em 1 minuto

A ferramenta de prova virtual de IA lançada pela Pic, subsidiária da Alibaba International, trouxe economia de custos e aumento de eficiência revolucionários para comerciantes de roupas. Os comerciantes precisam apenas enviar imagens de roupas e selecionar modelos para gerar imagens de produtos com efeitos de estúdio profissional em pouco tempo, com um custo médio de apenas 0,2 a 0,3 yuans chineses. Esta ferramenta não apenas simplifica o processo de filmagem, mas também garante a legalidade da autorização do modelo, sendo calorosamente recebida pelos comerciantes norte-americanos na Feira de Cantão.

【AiBase destaca:】
👗 A ferramenta de prova virtual de IA ajuda os comerciantes de roupas a economizar custos de filmagem, gerando imagens de produtos com modelos vestindo as roupas.
📸 O recurso de prova virtual suporta o envio de imagens de peças de cima e de baixo, reconhece roupas inteiriças e gera imagens de exibição com diferentes efeitos.
💰 O custo médio para os comerciantes que utilizam o recurso de prova virtual é de 0,2 a 0,3 yuans chineses, reduzindo significativamente os custos de filmagem e impulsionando as vendas de produtos no mercado global.

5、 Tencent lança modelo de geração de imagens de código aberto Hunyuan-DiT, capaz de gerar e refinar imagens com base no contexto da conversa

Este artigo apresenta o modelo de geração de imagens de código aberto Hunyuan-DiT da Tencent, que possui uma capacidade de compreensão detalhada do chinês e do inglês e pode gerar e refinar imagens com base no contexto da conversa. O Hunyuan-DiT combina a estrutura Transformer, codificação de texto e codificação de posição para treinar um modelo de linguagem grande multimodais, trazendo resultados significativos para a tarefa de geração de imagens. Este modelo tem amplas perspectivas de aplicação nas áreas de processamento de linguagem natural e geração de imagens.

【AiBase destaca:】
🔑 O Hunyuan-DiT utiliza a estrutura Transformer, obtendo sucesso na área de processamento de texto.
🔑 Através da codificação de texto e codificação de posição, o Hunyuan-DiT consegue uma compreensão granular do chinês.
🔑 O treinamento de um modelo de linguagem grande multimodais permite que o Hunyuan-DiT gere descrições de imagens precisas e descritivas.
Link para detalhes: https://github.com/Tencent/HunyuanDiT

6、 ElevenLabs lança API de dublagem, permitindo que desenvolvedores adicionem recursos de tradução de áudio ou vídeo em seus produtos

A ElevenLabs lançou recentemente a API de dublagem, oferecendo aos desenvolvedores a conveniência de adicionar recursos de tradução de áudio ou vídeo em seus produtos. Esta API suporta tradução para 29 idiomas e preserva as características de voz do orador original. Os desenvolvedores podem usar rapidamente o tutorial Python e a referência da API para integrá-la facilmente às principais linguagens de programação. A ElevenLabs também lançou o ElevenLabs Music, um produto de geração de músicas a partir de texto, demonstrando excelente desempenho e capacidade criativa em música.

【AiBase destaca:】
🔊 A API de dublagem permite traduzir áudio ou vídeo para 29 idiomas, preservando as características da voz original.
🎶 O ElevenLabs Music apresenta excelente desempenho na música, incluindo ritmo, harmonia e criatividade.
🎤 Os principais produtos da ElevenLabs incluem clonagem de voz, conversão de texto em fala e soluções de dublagem de IA.
Link para detalhes: https://elevenlabs.io/docs/api-reference/create-dub

7、 MiniMax lança o "assistente de vida" 海螺 AI

A MiniMax lançou um produto chamado "海螺 AI" (Heilo AI), um assistente de vida para estudantes, recém-formados, trabalhadores autônomos, criadores e outros grupos, oferecendo um "cérebro externo" e um assistente de vida para ajudar a aliviar a pressão causada pela sobrecarga de informações e pelo ritmo acelerado de trabalho. O Heilo AI é inteligente e eficiente, suporta o processamento de conteúdo longo, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação. Ele já está em uso generalizado, resolvendo problemas de usuários 24 horas por dia, 7 dias por semana, com a esperança de acompanhar os usuários em diferentes estágios da vida.

【AiBase destaca:】
🧠 Inteligente e eficiente: O Heilo AI utiliza um modelo de linguagem grande multimodais autodesenvolvido, suportando o processamento de conteúdo longo e apresentando características inteligentes e eficientes.
💬 Interação humanizada: O produto é amigável, compreende emoções e escuta pacientemente os usuários, suportando vários métodos de interação, como entrada de texto, envio de arquivos e comunicação por voz.
🌟 Aplicação em vários grupos: Desde estudantes que se preparam para exames até funcionários de grandes empresas, vários grupos de usuários o utilizam, mostrando sua versatilidade.

8、 Android está prestes a lançar um recurso de detecção de chamadas de spam baseado em IA

O Google está desenvolvendo um novo recurso de proteção que utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam. Os usuários receberão alertas em tempo real e serão incentivados a encerrar chamadas suspeitas. Este recurso monitora no próprio dispositivo, mantendo a privacidade da conversa e ajudando a prevenir fraudes.

【AiBase destaca:】
🔍 Utiliza a tecnologia Gemini Nano para identificar linguagem e padrões de conversa fraudulentos em chamadas de spam, fornecendo alertas em tempo real.
🚫 Os usuários receberão alertas para encerrar chamadas suspeitas, evitando o vazamento de informações pessoais ou fraudes.
💡 O Gemini Nano atualmente só é compatível com os telefones Google Pixel 8 Pro e Samsung S24, limitando o alcance do recurso.

9、 Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome

O Google planeja integrar a IA Gemini Nano diretamente ao navegador Chrome, o que significa que os usuários poderão gerar postagens em mídias sociais, avaliações de produtos e outros conteúdos diretamente no navegador. Ao mesmo tempo, fornecerá aos desenvolvedores sugestões para explicar erros e corrigir códigos. O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.

【AiBase destaca:】
✨ O Gemini Nano será integrado diretamente ao navegador Chrome, permitindo que os usuários gerem postagens em mídias sociais, avaliações de produtos e outros conteúdos.
🔧 O Gemini Nano, como parte do Chrome DevTools, fornece aos desenvolvedores sugestões para explicar erros e corrigir códigos.
⚡ O Gemini Nano funciona em dispositivos locais, oferecendo uma experiência de IA mais rápida e com maior proteção de privacidade.

10、 Google lança novo modelo de IA LearnLM, focado na área da educação

O novo modelo de IA LearnLM lançado pelo Google visa ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico. Através da integração com outros produtos do Google, ele fornece várias funções de auxílio ao aprendizado, como simplificar planos de aula, responder a perguntas de matemática e física, etc.

【AiBase destaca:】
🤖 O LearnLM é um modelo de IA baseado no Gemini, desenvolvido pelo Google, com o objetivo de ajudar os alunos a resolver problemas de tarefas e melhorar o desempenho acadêmico.
📚 O LearnLM pode encontrar e apresentar exemplos de tópicos de várias maneiras, orientar os alunos nos estudos e despertar o interesse no aprendizado.
💡 O LearnLM já está integrado à pesquisa do Google, Android, YouTube e ao chatbot Gem, simplificando planos de aula, respondendo a perguntas de vídeo e fornecendo funções de especialistas pessoais.
Link para detalhes: https://blog.google/outreach-initiatives/education/google-learnlm-gemini-generative-ai/

11、 Google expande a tecnologia de marca d'água de conteúdo de IA para vídeo e texto

O Google anunciou que expandirá sua tecnologia de marca d'água de conteúdo de IA para vídeo e texto, introduzindo a nova tecnologia de marca d'água digital SynthID para marcar conteúdo gerado por IA. Esta medida é de grande importância para lidar com desinformação política e a disseminação de conteúdo prejudicial.

【AiBase destaca:】
🔍 O SynthID é uma nova tecnologia de marca d'água digital que pode marcar vídeos e textos gerados por IA.
🛡️ A marca d'água digital não é perceptível a olho nu, mas pode ser detectada por sistemas, podendo lidar com desinformação política e a disseminação de conteúdo prejudicial.
🌐 As marcas d'água digitais para conteúdo gerado por IA estão se tornando cada vez mais importantes, especialmente quando a IA é usada indevidamente, e o SynthID do Google é um exemplo disso.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

AI Diário: Google desafia GPT-4 e Sora com sua arma definitiva; ByteDance lança família de modelos de linguagem “Doubao”; Alibaba apresenta novo provador virtual com IA; Tencent lança modelo de geração de imagens MixYuan de código aberto

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Google lança ferramenta de marketing de IA Pomelli: gere conteúdo da marca de forma automatizada com apenas um endereço

Google lança ferramenta de marketing automatizado com IA Pomelli, insira o URL do site para gerar conteúdo de marketing

Fitbit lança o treinador de saúde Gemini: seu personal trainer e consultor de sono com IA está aqui, os usuários do Android podem experimentar amanhã

Google Earth integra modelo de linguagem Gemini e pode identificar riscos de tempestades e secas

Diário de IA: Dabao Video 1.0pro fast lançado; nova funcionalidade do Gemini da Google está disponível; o Baidu lança o modelo de esporte corporal 2.0

O 'Brain da Terra' do Google Earth AI está online! O Gemini prevê inundações, algas tóxicas e incêndios florestais com um clique. Alertas globais de desastres passam de semanas para minutos

Estudo: A busca por IA difere da busca do Google, pois frequentemente cita sites menos conhecidos

Acabe com o pesadelo de criar apresentações em PPT! O Google Gemini gera uma apresentação em um clique, transformando documentos em slides