Na conferência Volcano Engine FORCE, realizada em 18 de dezembro de 2024, a Volcano Engine anunciou uma atualização completa da família de modelos de linguagem grandes Doubao e lançou um novo modelo de compreensão visual.

O presidente da Volcano Engine, Tan Dai, afirmou que o uso diário de tokens do modelo de linguagem grande Doubao aumentou drasticamente nos últimos meses, atingindo mais de 4 trilhões, um crescimento de 33 vezes em comparação com o lançamento em maio. Essa tendência de crescimento demonstra o amplo uso do modelo de linguagem grande Doubao em diversos cenários de aplicação.

Com o lançamento do modelo de compreensão visual, os usuários agora podem inserir texto e imagens simultaneamente, permitindo que o modelo compreenda e forneça respostas precisas de forma integrada. Essa inovação simplifica significativamente o processo de desenvolvimento de aplicativos e amplia o potencial dos modelos de linguagem grandes em diversos cenários.
O modelo de compreensão visual possui uma capacidade de reconhecimento de conteúdo aprimorada, podendo identificar não apenas elementos básicos como objetos, formas e cores, mas também as relações entre os objetos, o layout espacial e o significado geral da cena. Por exemplo, ele consegue reconhecer sombras e informações de conhecimento geral.

O modelo de compreensão visual apresenta capacidades aprimoradas de compreensão e raciocínio, permitindo não apenas uma melhor identificação de conteúdo, mas também cálculos lógicos complexos com base nas informações de texto e imagem identificadas, como inferência de gráficos e inferência física.

Além disso, possui uma capacidade de descrição visual mais detalhada, podendo descrever com precisão o conteúdo apresentado nas imagens e criar diversos estilos de texto, como poemas e descrições criativas a partir de imagens.

O modelo de compreensão visual Doubao apresenta amplas perspectivas de aplicação em diversos setores, como educação, turismo e comércio eletrônico. Na educação, por exemplo, pode auxiliar estudantes na otimização de redações e no aprendizado de conhecimentos científicos; no turismo, pode fornecer traduções de menus em idiomas estrangeiros e explicações sobre monumentos históricos; e no marketing de comércio eletrônico, pode auxiliar comerciantes na descrição detalhada de características de produtos, melhorando a eficácia dos anúncios.
O custo de uso do modelo de compreensão visual também é acessível, com um preço de 0,003 yuan por mil tokens, 85% abaixo da média do setor. Esse preço permite o processamento de até 284 imagens de 720P por yuan, marcando a entrada da tecnologia de compreensão visual na "era dos centavos". Além disso, a Volcano Engine oferece suporte inicial de até 15.000 tokens para empresas e desenvolvedores, ajudando-os a aproveitar melhor essa tecnologia.

Na conferência, a Volcano Engine não apenas lançou o modelo de compreensão visual, mas também atualizou diversos outros modelos. A capacidade de processamento de tarefas complexas do modelo Doubao Universal Pro aumentou 32% em comparação com maio, com melhorias significativas em raciocínio, seguimento de instruções, código e matemática. O modelo Doubao de geração de vídeo estará disponível a partir de janeiro de 2025, com possibilidade de reserva antecipada para empresas.


Para melhorar a capacidade de obtenção de informações e recomendação de busca das empresas, a Volcano Engine também lançou o serviço de busca AI omnichannel, ajudando as empresas a conectar melhor informações e necessidades dos usuários, impulsionando a transformação inteligente em diversos setores.
Destaques:
🔍 O uso diário de tokens do modelo de linguagem grande Doubao atingiu 4 trilhões, um crescimento de 33 vezes em comparação com maio.
💡 O novo modelo de compreensão visual suporta a entrada simultânea de texto e imagens, sendo adequado para setores como educação, turismo e comércio eletrônico.
💰 O custo de uso é de apenas 0,003 yuan por mil tokens, significativamente abaixo da média do setor.




