Notícias de IA

Não perca nenhum momento da inovação global em IA

IA Diário

Tendências diárias da indústria de IA em três minutos

Linha do Tempo da IA

Marcos da indústria de IA

Al hardware

lista todos os produtos de hardware AI.

Guia de Monetização de IA

Casos Recentes

Compartilhamento de casos de monetização de IA

Coleção de Imagens

Casos de monetização de criação de imagens por IA

Coleção de Vídeos

Casos de monetização de criação de vídeos por IA

Coleção de Áudios

Casos de monetização de criação de áudios por IA

Coleção de Conteúdo

Casos de monetização de escrita de conteúdo por IA

Tutoriais de IA

Tutoriais Recentes

Compartilhamento gratuito dos tutoriais de IA mais recentes

Rankings de Produtos de IA

Ranking de Produtos de IA

Mostra o ranking total de visitas de sites de IA

Ranking de Crescimento de Tráfego de IA

Rastreia os sites de IA de crescimento mais rápido por tráfego

Ranking de Queda de Tráfego de IA

Foco em sites de IA com quedas significativas de tráfego

Ranking Semanal de IA

Mostra o ranking semanal de visitas de sites de IA

Rankings de Países Populares

Estados Unidos

Sites de IA mais populares entre os usuários dos EUA

China

Sites de IA mais populares entre os usuários chineses

Índia

Sites de IA mais populares entre os usuários indianos

Brasil

Sites de IA mais populares entre os usuários brasileiros

Rankings de Categorias Populares

Geração de Imagens

Ranking total de visitas de sites de geração de imagens de IA

Assistente Pessoal

Ranking total de visitas de sites de assistentes pessoais de IA

Geração de Personagens

Ranking total de visitas de sites de geração de personagens de IA

Geração de Vídeos

Ranking total de visitas de sites de geração de vídeos de IA

Rankings de Dados de Código Aberto Populares

Ranking de Projetos de IA

Projetos de IA populares no GitHub por total de estrelas

Ranking de Crescimento de Projetos de IA

Projetos de IA populares no GitHub por taxa de crescimento

Ranking de Desenvolvedores de IA

Ranking de desenvolvedores de IA populares no GitHub

Ranking de Organizações de IA

Ranking de organizações de IA populares no GitHub

Categorias de Código Aberto Populares

Deepseek

Projetos de código aberto Deepseek populares no GitHub

TTS

Projetos de código aberto TTS populares no GitHub

LLM

Projetos de código aberto LLM populares no GitHub

ChatGPT

Projetos de código aberto ChatGPT populares no GitHub

Biblioteca de Projetos de Código Aberto de IA

Visão Geral

Visão geral dos projetos de código aberto de IA populares no GitHub

Biblioteca de produtos Navegação de ferramentas MCP

Google lança novo modelo de linguagem visual PaLI-3 com desempenho robusto e menos parâmetros

学术头条

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Oct 19, 2023

Recentemente, a equipe de pesquisa do Google lançou um novo modelo de linguagem visual, o PaLI-3. Este modelo apresenta um desempenho superior a modelos maiores, apesar de possuir menos parâmetros. A pesquisa utilizou um codificador de imagem pré-treinado de forma contrastiva, permitindo que o PaLI-3 se destacasse em várias tarefas de localização e compreensão de texto. O PaLI-3 alcançou os melhores resultados em vários conjuntos de dados de perguntas e respostas visuais, demonstrando uma poderosa capacidade de compreensão multimodal. A pesquisa comparou o pré-treinamento classificatório e o pré-treinamento contrastivo, descobrindo que este último leva a modelos de linguagem visual mais eficientes.

modelo de linguagem visual Google PaLI-3

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

Nova quebra de barragem no modelo de linguagem visual! Visual ARFT impulsiona a capacidade de agentes multimodais.

May 27, 2025

Google lança novo modelo de linguagem visual PaliGemma 2 Mix com recursos multifuncionais para desenvolvedores

Recentemente, o Google anunciou o lançamento de um novo modelo de linguagem visual (Vision-Language Model, VLM), chamado PaliGemma2Mix. Este modelo combina processamento de imagem e processamento de linguagem natural, permitindo a compreensão simultânea de informações visuais e entrada de texto, e gerando saídas correspondentes de acordo com as necessidades. Isso representa um avanço significativo na capacidade de processamento de múltiplas tarefas da inteligência artificial. O PaliGemma2Mix possui recursos poderosos, incluindo descrição de imagens, reconhecimento óptico de caracteres

Feb 20, 2025

2.4k

IBM lança o modelo de linguagem visual Granite-Vision-3.1-2B, para análise simplificada de documentos complexos

Com o avanço da inteligência artificial, a fusão de dados visuais e textuais tornou-se um desafio complexo. Modelos tradicionais muitas vezes têm dificuldades em analisar com precisão documentos visuais estruturados, como tabelas, gráficos, infográficos e diagramas. Essa limitação afeta a capacidade de extração e compreensão automáticas de conteúdo, impactando aplicações como análise de dados, recuperação de informações e tomada de decisões. Para atender a essa necessidade, a IBM lançou recentemente o Granite-Vision-3.1-2B, um modelo de linguagem visual compacto projetado para compreensão de documentos.

Feb 8, 2025

2.5k

Tecnologia VLA lidera a corrida de direção autônoma, Nvidia ajuda empresas emergentes a conquistar participação de mercado

Na indústria de direção autônoma, 2025 é considerado o "ano do VLA nos veículos", marcando o surgimento de um novo paradigma tecnológico. VLA, ou Modelo de Ação Linguagem-Visão (Vision-Language-Action Model), foi proposto pela primeira vez pela DeepMind em 2023, com o objetivo de melhorar a capacidade dos robôs de compreender e reagir ao ambiente. Recentemente, essa tecnologia tem recebido muita atenção na área de direção autônoma. Em comparação com os modelos tradicionais de linguagem visual (VLM), o VLA oferece...

Jan 25, 2025

2.3k

NVIDIA lança novo modelo de linguagem visual NVILA, superando GPT-4o Mini e Llama 3.2

Recentemente, a NVIDIA lançou sua nova geração de modelo de linguagem visual aberto - NVILA. Projetado para otimizar precisão e eficiência, ele se destaca como um líder em IA visual com desempenho superior. De acordo com a NVIDIA, o NVILA reduziu em 4,5 vezes o custo de treinamento, em 3,4 vezes a memória necessária para ajuste fino e quase 2 vezes a latência de preenchimento e decodificação. Esses dados são comparados a outro grande modelo de visão LLaVa OneVision. Em benchmark de vídeo

Dec 9, 2024

3.4k

Hugging Face lança o modelo de linguagem visual de 2B de parâmetros SmolVLM: execução ultrarrápida em dispositivos comuns

Nos últimos anos, a demanda por modelos de aprendizado de máquina em tarefas de visão e linguagem tem crescido, mas a maioria dos modelos requer recursos computacionais substanciais, impossibilitando sua execução eficiente em dispositivos pessoais. Dispositivos menores, como laptops, GPUs de consumo e dispositivos móveis, enfrentam desafios significativos no processamento de tarefas de linguagem visual. O Qwen2-VL, por exemplo, embora tenha um desempenho excelente, exige altos recursos de hardware, limitando sua usabilidade em aplicações em tempo real. Portanto, o desenvolvimento de modelos leves para operação em recursos limitados tornou-se...

Nov 27, 2024

1.9k

Compacto e poderoso! O modelo de IA visual moondream2 de bolso: apenas 1,6 bilhão de parâmetros, funciona em smartphones

Recentemente, a Moondream, uma startup de Seattle, lançou o moondream2, um modelo de linguagem visual compacto. Apesar de seu tamanho compacto, o modelo se saiu excepcionalmente bem em vários benchmarks, chamando a atenção. Como um modelo de código aberto, o moondream2 tem o potencial de habilitar o reconhecimento de imagem local em smartphones. Lançado oficialmente em março, o moondream2 pode processar entradas de texto e imagem, com capacidades como responder a perguntas, extração de texto (OCR), contagem de objetos e classificação de itens.

Nov 8, 2024

3.9k

NVIDIA lança o novo modelo de linguagem visual NVEagle, que conversa com você usando imagens

A NVIDIA, em colaboração com diversas universidades, lançou o NVEagle, um grande modelo de linguagem visual capaz de conversar usando imagens. O NVEagle consegue analisar o conteúdo de imagens e fornecer respostas precisas, como identificar a pessoa na imagem como Jensen Huang. O modelo melhora significativamente a capacidade de compreensão de informações visuais ao converter imagens em marcadores visuais e combiná-los com incorporações de texto. Para enfrentar o desafio do processamento de imagens de alta resolução, a equipe de pesquisa explorou diferentes codificadores visuais e estratégias de fusão, construindo modelos como Eagle-X5-7B e Eagle-X.

Sep 2, 2024

2.8k

Google apresenta SpatialVLM para resolver problemas de raciocínio espacial em modelos de linguagem visual

Uma pesquisa recente do Google apresenta o SpatialVLM, projetado para resolver o problema da falta de capacidade de raciocínio espacial em modelos de linguagem visual. Inspirando-se na capacidade de raciocínio espacial humana, os pesquisadores projetaram o SpatialVLM para possuir habilidades de raciocínio espacial direto e raciocínio em cadeia. Os pesquisadores usaram modelos de detecção de palavras abertas, estimativa de profundidade e segmentação semântica para treinar o SpatialVLM, melhorando o desempenho do modelo em problemas espaciais e estimativas quantitativas. Um framework abrangente de geração de dados foi projetado para extrair informações de entidades e gerar dados espaciais em larga escala.

Feb 18, 2024

480

Modelo SpatialVLM do Google dota modelos de linguagem visual com raciocínio espacial

Um novo artigo do Google revela o SpatialVLM, um modelo de linguagem visual com capacidade de raciocínio espacial que resolve dificuldades enfrentadas por modelos de linguagem visual nessa área. O SpatialVLM demonstra notável capacidade de raciocínio espacial qualitativa e quantitativa através da geração de um conjunto de dados em larga escala de VQA espacial. Os pesquisadores apontam que o gargalo atual dos modelos de linguagem visual no raciocínio espacial reside nas limitações dos conjuntos de dados, e o SpatialVLM consegue melhorar significativamente a capacidade de raciocínio espacial geral.

Feb 18, 2024

460