Modelo de IA de alta resolução Griffon v2: Referência flexível de texto e visual

站长之家

Publicado emNotícias e Informações de IA · 1 minutos de leitura · Mar 19, 2024

144

O mais recente modelo de IA de alta resolução, Griffon v2, combina dicas de texto e visuais, fornecendo referências de objetos flexíveis. A equipe empregou um projetor de subamostragem para aprimorar a capacidade de percepção multimodal. O modelo se destacou nas tarefas de geração de expressões de referência, localização de frases e compreensão de expressões de referência, superando modelos especialistas. Com uma estrutura de co-referência visual-linguística, ele demonstra superioridade na detecção de objetos e na contagem de objetos.

Griffon Modelo de IA Referência

Este artigo é do AIbase Daily

Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.

—— Criado pelo Grupo AIbase Daily

Notícias de IA Relacionadas Recomendadas

O sistema operacional de IA NeuralOS surge no cenário! Simula perfeitamente a interface do Windows, nova era da interação humano-máquina

Uma equipe chinesa lançou o sistema operacional de IA aberto NeuralOS, que realizou a visão de GUI para a era da IA proposta por Karpathy. O sistema usa dois módulos principais, RNN e renderizador neural, para prever e simular em tempo real a interface do Windows, exibindo com precisão as respostas às ações do usuário. A equipe de desenvolvimento treinou o sistema com muitos vídeos de operações, e atualmente pode prever com precisão as ações do usuário, mas ainda apresenta limitações ao lidar com entradas rápidas do teclado. O NeuralOS já oferece uma versão de experiência online, mostrando uma nova experiência de sistema operacional gerado dinamicamente pela IA. À medida que os códigos...

Jul 16, 2025

Uber se une à LuoBo Kuaipai, milhares de Robotaxis estarão disponíveis globalmente

Empresa chinesa de veículos autônomos 'Luobo Kuaipao' fechou parceria global com a Uber para implantar milhares de Robotaxis. A tecnologia, já testada em Dubai com 1.700 km seguros, será disponibilizada aos usuários da Uber em meses. Mercado de Robotaxi pode atingir US$ 457 bi até 2030.....

Jul 16, 2025

Jornal da IA: ByteDance lançará a versão 2.0 da ferramenta de programação de IA TRAE; Mistral apresenta com destaque o modelo de áudio Voxtral; Moonshot responde sobre a lentidão da API Kimi K2

1. ByteDance adiciona interação por voz ao TRAE2.0. 2. Mistral lança modelo de áudio Voxtral. 3. Otimização do Kimi K2API. 4. Kunlun lança AgentOrchestra. 5. Thinking Machines Lab recebe US$ 2 bi. 6. Kimi-2 supera GPT-4.1. 7. TRAE lança Kimi-K2. 8. ByteDance abre POLARIS. 9. Ima lança versão web.....

Jul 16, 2025

Ferramentas de programação com IA se direcionam silenciosamente para a interface de terminal, o futuro do desenvolvimento pode mudar totalmente!

Ferramentas de IA estão migrando de editores tradicionais para terminais interativos. Novas ferramentas como Claude Code destacam a eficiência superior de terminais, capazes de lidar com codificação e DevOps. Especialistas preveem que 95% das interações com LLMs ocorrerão via terminais.....

Jul 16, 2025

Kimi-2 está disponível no LiveBench AI: um novo campeão de IA aberta ultrapassa o GPT-4.1

Kimi-2, modelo de IA open-source com 32B parâmetros, supera Claude Opus4 e GPT-4.1 em geração de código. Preço competitivo de $0.15/milhão de tokens. Disponível no app Kimi e via API.....

Jul 16, 2025

Atualização do Google NotebookLM: nova biblioteca de anotações públicas que aprimora a experiência de anotações inteligentes

O Google atualizou o aplicativo de anotações de IA NotebookLM, adicionando a funcionalidade de biblioteca de anotações públicas. Essa biblioteca integra conteúdos autoritários como o The Economist e anotações de especialistas, permitindo aos usuários fazer perguntas e obter resumos gerados por IA. Foram adicionadas novas funções como resumo de áudio e mapas mentais, com os primeiros recursos abrangendo guias sobre longevidade, dicas de viagem e outros conteúdos úteis. Atualmente, a plataforma já acumulou mais de 140 mil anotações de usuários, melhorando a eficiência da gestão do conhecimento por meio de tecnologia de IA e reforçando a ecologia de compartilhamento de informações.

Jul 16, 2025

Huang Renxun aparece na Exposição da Cadeia: IA se tornará a nova infraestrutura global, os desenvolvedores chineses desempenham um papel crucial

CEO da NVIDIA, Jensen Huang, destacou a transformação da empresa para IA na feira Chain Expo China. Ele ressaltou o impacto da IA na indústria global, com 1,5 milhão de projetos chineses na plataforma NVIDIA, incluindo modelos como DeepSeek. Huang enfatizou a importância da IA open-source da China e apresentou o Omniverse, que apoia digitalização de cadeias de suprimentos. Previu que a IA liderará a revolução industrial na próxima década.....

Jul 16, 2025

Nova empresa da ex-CTO da OpenAI, Mira Murati, completa financiamento de 2 bilhões de dólares para avançar no desenvolvimento de inteligência artificial multimodal

Thinking Machines Lab, fundada pela ex-CTO da OpenAI Mira Murati, levantou US$2 bilhões em rodada inicial, avaliada em US$12 bilhões. Foco em IA multimodal e alinhamento com valores humanos.....

Jul 16, 2025

O teclado de voz inteligente Willow recebe um financiamento inicial de 4,2 milhões de dólares e mira um novo futuro para o sistema operacional de voz

Startup de voz inteligente Willow levantou US$4,2 milhões para desenvolver sistema operacional de voz. Tecnologia TNT combina deep learning e NLP para interpretar comandos complexos. Equipe pivoteou de saúde após falha, focando em interação por voz. Estratégia: modular e open-source para competir com gigantes. Desafios incluem suporte multilíngue e privacidade.....

Jul 16, 2025

O ferramenta de programação de IA da ByteDance TRAE2.0 será lançada em breve, adicionando funcionalidade de interação por voz

O TRAE 2.0 da ByteDance, lançado 6 meses após a versão 1.0, aprimora codificação e adiciona interação por voz. Baseado no VS Code, integra modelos AI como Claude e DeepSeek para geração de código, revolucionando a experiência do desenvolvedor.....

Jul 16, 2025