Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas MCP

Google quebra novos limites: Gemini 2.5 Pro realiza compreensão de vídeo em 6 horas, a capacidade visual da IA entra em uma nova era

AIbase基地

Publicado emNotícias e Informações de IA · 6 minutos de leitura · May 12, 2025

O modelo de IA líder Gemini2.5Pro da Google agora possui capacidades aprimoradas de compreensão de vídeo. Ele não apenas suporta a análise de vídeos com duração de até 6 horas, mas também apresenta uma janela de contexto ultragrande com até 2 milhões de Tokens. Além disso, pela primeira vez, é possível analisar diretamente links do YouTube via API. De acordo com os dados oficiais, o modelo alcançou 84,7% de precisão no benchmark VideoMME, ficando apenas 0,5% abaixo do nível de referência da indústria com 85,2%, demonstrando sua força poderosa. Essa tecnologia revolucionária já está disponível para desenvolvedores na Google AI Studio.

Graças à sua janela de contexto massiva, o Gemini2.5Pro consegue processar automaticamente cerca de 6 horas de conteúdo de vídeo (considerando uma amostragem de 1 frame por segundo com 66 Tokens por frame). Agora, os desenvolvedores podem usar uma chamada simples via API para inserir links do YouTube e permitir que o modelo entenda, analise e converta automaticamente o conteúdo dos vídeos. Na demonstração do vídeo de abertura do Google Cloud Next '25, o modelo identificou com precisão 16 segmentos diferentes de demonstrações de produtos, combinando线索de áudio e vídeo para localizar o conteúdo, mostrando sua capacidade de compreensão profunda.

O que impressiona ainda mais é sua capacidade de localização instantânea e análise trans-horária. O Gemini2.5Pro pode localizar rapidamente momentos-chave em vídeos com base nas sugestões do usuário, como estatísticas precisas sobre 17 eventos independentes de uso de celular em um vídeo contínuo. Sua capacidade de julgamento lógico também permite tarefas de raciocínio temporal complexas, analisando a sequência ou frequência de eventos em vídeos. Tudo isso é possível graças à tecnologia 3D-JEPA e à fusão multimodal adotada pela Google, que combina informações de áudio e vídeo com dados de código, aumentando significativamente a profundidade e precisão da compreensão de vídeos pelo modelo.

No que diz respeito às aplicações, o Gemini2.5Pro traz inovações em várias áreas. No campo educacional, o modelo pode gerar aplicativos interativos de aprendizado com base em vídeos didáticos, aumentando significativamente o envolvimento dos alunos; na indústria criativa, ele pode transformar conteúdo de vídeo em animações p5.js ou visualizações interativas, oferecendo ferramentas eficientes aos criadores; em cenários de análise empresarial, o modelo pode interpretar inteligentemente vídeos de reuniões ou demonstrações de produtos, extrair automaticamente informações relevantes e gerar relatórios profissionais.

É importante destacar que a Google oferece um modo de processamento de baixa resolução (utilizando apenas 66 Tokens por frame) para reduzir ainda mais os custos de processamento de vídeos longos. Os testes oficiais mostram que esse modo econômico tem uma queda de apenas 0,5% no desempenho no teste VideoMME, alcançando um equilíbrio excelente entre custo e performance, oferecendo aos desenvolvedores mais opções práticas.

O avanço na compreensão de vídeos do Gemini2.5Pro marca o início de uma transição dos sistemas de IA centrados em linguagem para produtos multimodais orientados a vídeo. Com sua janela de contexto de 2 milhões de Tokens e a capacidade de interpretar links do YouTube, o modelo proporciona aos desenvolvedores espaços criativos sem precedentes, especialmente em áreas de alto valor como educação, entretenimento e análise empresarial. Apesar disso, especialistas da indústria observam que há espaço para melhorias na otimização de latência ao lidar com vídeos extremamente longos. A Google planeja expandir ainda mais a janela de contexto e integrar funcionalidades multimodais adicionais, como o processamento de streams em tempo real, para atender à crescente demanda do mercado e continuar liderando o desenvolvimento da capacidade visual da IA.

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily