Família de modelos de linguagem grandes Doubao totalmente atualizada, lançando modelos de compreensão visual e modelo de música 4.0

Na conferência Volcano Engine FORCE, realizada em 18 de dezembro de 2024, a Volcano Engine anunciou uma atualização completa da família de modelos de linguagem grandes Doubao e lançou um novo modelo de compreensão visual.

O presidente da Volcano Engine, Tan Dai, afirmou que o uso diário de tokens do modelo de linguagem grande Doubao aumentou drasticamente nos últimos meses, atingindo mais de 4 trilhões, um crescimento de 33 vezes em comparação com o lançamento em maio. Essa tendência de crescimento demonstra o amplo uso do modelo de linguagem grande Doubao em diversos cenários de aplicação.

Com o lançamento do modelo de compreensão visual, os usuários agora podem inserir texto e imagens simultaneamente, permitindo que o modelo compreenda e forneça respostas precisas de forma integrada. Essa inovação simplifica significativamente o processo de desenvolvimento de aplicativos e amplia o potencial dos modelos de linguagem grandes em diversos cenários.

O modelo de compreensão visual possui uma capacidade de reconhecimento de conteúdo aprimorada, podendo identificar não apenas elementos básicos como objetos, formas e cores, mas também as relações entre os objetos, o layout espacial e o significado geral da cena. Por exemplo, ele consegue reconhecer sombras e informações de conhecimento geral.

O modelo de compreensão visual apresenta capacidades aprimoradas de compreensão e raciocínio, permitindo não apenas uma melhor identificação de conteúdo, mas também cálculos lógicos complexos com base nas informações de texto e imagem identificadas, como inferência de gráficos e inferência física.

Além disso, possui uma capacidade de descrição visual mais detalhada, podendo descrever com precisão o conteúdo apresentado nas imagens e criar diversos estilos de texto, como poemas e descrições criativas a partir de imagens.

O modelo de compreensão visual Doubao apresenta amplas perspectivas de aplicação em diversos setores, como educação, turismo e comércio eletrônico. Na educação, por exemplo, pode auxiliar estudantes na otimização de redações e no aprendizado de conhecimentos científicos; no turismo, pode fornecer traduções de menus em idiomas estrangeiros e explicações sobre monumentos históricos; e no marketing de comércio eletrônico, pode auxiliar comerciantes na descrição detalhada de características de produtos, melhorando a eficácia dos anúncios.

O custo de uso do modelo de compreensão visual também é acessível, com um preço de 0,003 yuan por mil tokens, 85% abaixo da média do setor. Esse preço permite o processamento de até 284 imagens de 720P por yuan, marcando a entrada da tecnologia de compreensão visual na "era dos centavos". Além disso, a Volcano Engine oferece suporte inicial de até 15.000 tokens para empresas e desenvolvedores, ajudando-os a aproveitar melhor essa tecnologia.

Na conferência, a Volcano Engine não apenas lançou o modelo de compreensão visual, mas também atualizou diversos outros modelos. A capacidade de processamento de tarefas complexas do modelo Doubao Universal Pro aumentou 32% em comparação com maio, com melhorias significativas em raciocínio, seguimento de instruções, código e matemática. O modelo Doubao de geração de vídeo estará disponível a partir de janeiro de 2025, com possibilidade de reserva antecipada para empresas.

Para melhorar a capacidade de obtenção de informações e recomendação de busca das empresas, a Volcano Engine também lançou o serviço de busca AI omnichannel, ajudando as empresas a conectar melhor informações e necessidades dos usuários, impulsionando a transformação inteligente em diversos setores.

Destaques:

🔍 O uso diário de tokens do modelo de linguagem grande Doubao atingiu 4 trilhões, um crescimento de 33 vezes em comparação com maio.

💡 O novo modelo de compreensão visual suporta a entrada simultânea de texto e imagens, sendo adequado para setores como educação, turismo e comércio eletrônico.

💰 O custo de uso é de apenas 0,003 yuan por mil tokens, significativamente abaixo da média do setor.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Família de modelos de linguagem grandes Doubao totalmente atualizada, lançando modelos de compreensão visual e modelo de música 4.0

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

20 mil dólares para um substituto de tarefas domésticas? O robô humanoide 1X Neo, financiado pela OpenAI, começa a pré-venda e entra nas casas norte-americanas no próximo ano

Hunyuan lança o primeiro podcast de IA interativo no país, os usuários podem fazer perguntas a qualquer momento

Amazon Cloud planeja investir mais 5 bilhões de dólares na Coreia do Sul para impulsionar a construção de centrais de dados de inteligência artificial

O pai do DayZ compara seu medo atual em relação à IA com o pânico anterior em relação ao Google e à Wikipedia

Diário de IA: Douyu lança sistema automático de dublagem em grupo; Adobe Firefly Image 5 atualizado significativamente; SoulX-Podcast, modelo de voz da Soul, é lançado

Qualcomm entra no mercado de data centers! Lança os chips AI200/AI250 com objetivo de enfrentar a NVIDIA, ações subiram mais de 20% em um dia

Magic Leap anuncia parceria reatada com o Google para desenvolver protótipos de óculos AR da próxima geração

Tsinghua e Kuaishou lançam um novo modelo de difusão SVG, eficiência de treinamento aumenta 6200%

NVIDIA lança design revolucionário para centro de dados de IA, impulsionando cálculo de alto desempenho

Vice-presidente do Douyin, Li Liang, diz que a IA torna a difamação mais fácil e a plataforma está usando agentes inteligentes para combater falsas notícias