A equipe Qianfan da Baidu Cloud lançou oficialmente um novo modelo de compreensão visual —— Qianfan-VL, e o disponibilizou totalmente como código aberto! Essa série de modelos inclui três tamanhos diferentes: 3B, 8B e 70B, visando atender às necessidades de aplicações multimodais para empresas. Após otimização profunda, demonstram uma capacidade excepcional de compreensão visual.

O modelo Qianfan-VL não possui apenas habilidades básicas excelentes, mas também foi aprimorado para atender às demandas frequentes do setor, como reconhecimento óptico de caracteres (OCR) e aplicações em cenários educacionais, tornando-o mais eficaz no uso prático. Esse modelo foi desenvolvido com base em modelos de código aberto e realizou todo o processamento computacional na P800 Kunlun da Baidu, garantindo que o modelo possa processar dados e algoritmos complexos de forma eficiente graças à potente capacidade de cálculo.

image.png

Esse novo modelo tem três características notáveis. Primeiro, a escolha de múltiplos tamanhos permite que empresas e desenvolvedores de diferentes escalas encontrem soluções adequadas, os tamanhos 3B, 8B e 70B podem atender a diversas necessidades de aplicação. Segundo, os modelos 8B e 70B possuem capacidade de raciocínio, ativados por tokens especiais, podendo lidar com tarefas complexas como compreensão de gráficos, raciocínio visual e resolução de problemas matemáticos. Por fim, em OCR e compreensão de documentos, apresenta desempenho excelente, podendo identificar com precisão manuscritos e layouts complexos, bem como extrair informações estruturadas.

Nos testes de benchmark, a série de modelos Qianfan-VL demonstrou capacidades gerais excelentes e desempenho superior em tarefas específicas. Seja na compreensão visual ou em perguntas e respostas em áreas especializadas, esse modelo mostrou precisão e desempenho impressionantes em diversos testes. Em particular, na área de OCR e compreensão de documentos, sua capacidade de reconhecimento em todos os cenários e análise de documentos complexos fornece soluções de alta precisão para aplicações corporativas.

Além disso, a capacidade de resolver problemas matemáticos do Qianfan-VL também merece destaque, os modelos 8B e 70B demonstram desempenho superior ao lidar com tarefas de raciocínio complexo, combinando informações visuais e conhecimento externo. Em cenários práticos, ele pode extrair informações importantes e realizar análise de dados, ajudando as empresas a tomar decisões inteligentes.

O lançamento do Qianfan-VL marca uma grande conquista da Baidu na área de compreensão visual. Esperamos que sua aplicação prática em diversos setores provoque uma nova onda.