A Doubao, recentemente, lançou uma série de atualizações, incluindo os modelos Doubao 1.5 · Pensamento Profundo e Doubao Modelo de Geração de Imagens a partir de Texto 3.0, que foram oficialmente disponibilizados através da API aberta da Volcano Engine para desenvolvedores e clientes corporativos. Esses dois modelos alcançaram o nível de ponta da indústria em desempenho geral em tarefas de raciocínio e tarefas gerais, e fizeram progressos significativos em raciocínio visual e geração de imagens.

O modelo Doubao 1.5 · Pensamento Profundo se destacou em tarefas de raciocínio em áreas profissionais. Sua pontuação no teste AIME2024 de raciocínio matemático igualou a do OpenAI o3-mini-high, sua pontuação no Codeforces pass@8 em competições de programação se aproximou da do OpenAI o1, e sua pontuação no GPQA de raciocínio científico se aproximou da do o3-mini-high, alcançando ou se aproximando do primeiro grupo global. Em tarefas não relacionadas a raciocínio, como escrita criativa, o modelo também demonstrou excelente capacidade de generalização, sendo capaz de lidar com cenários de uso mais amplos e complexos.

Para melhorar a capacidade geral do modelo, a equipe da Doubao otimizou as estratégias de processamento de dados, integrando dados verificáveis e criativos para atender às necessidades de várias tarefas. O aprendizado por reforço em larga escala é a tecnologia-chave para treinar modelos de raciocínio. A equipe inovou propondo um mecanismo de recompensa de dupla trilha, que considera tarefas "claramente certas ou erradas" e tarefas "subjetivas", e implementou com eficácia a otimização confiável do algoritmo. Além disso, a equipe também otimizou a arquitetura subjacente, garantindo a estabilidade, escalabilidade, reprodutibilidade e eficiência computacional do treinamento.

微信截图_20250417133712.png

O modelo Doubao Pensamento Profundo utiliza a arquitetura MoE, com um total de 200 bilhões de parâmetros e apenas 20 bilhões de parâmetros ativos, apresentando uma vantagem significativa em termos de custo de treinamento e inferência. Com base em algoritmos eficientes e um sistema de inferência de alto desempenho, o modelo oferece uma capacidade de carga simultânea extremamente alta, ao mesmo tempo em que alcança uma latência extremamente baixa de 20 milissegundos. Além disso, o modelo também possui capacidade de raciocínio visual, podendo fazer associações e reflexões sobre o que vê, expandindo enormemente os limites de aplicação do raciocínio inteligente.

O modelo Doubao de Geração de Imagens a partir de Texto 3.0 é um modelo básico de geração de imagens de alta resolução nativo, que suporta idiomas chinês e inglês, com desempenho geral significativamente melhorado em comparação com a geração anterior. Este modelo alcançou avanços significativos em resolução, precisão da estrutura da imagem gerada, precisão quantitativa, relações de atributos de múltiplos objetos, geração e layout de caracteres pequenos, efeito estético e realismo. O Seedream3.0 emprega várias estratégias para alcançar inferência eficiente; a geração de imagens de 1K de resolução leva apenas 3 segundos de ponta a ponta, permitindo a geração rápida de imagens de alta qualidade e aumentando significativamente a eficiência da criação. Além disso, o modelo também otimizou os problemas da indústria, como a geração de alta fidelidade de fontes pequenas e o layout semântico de texto multilinha, permitindo que a IA tenha capacidade de design gráfico de nível comercial.

Na arena de competição de referência de geração de imagens a partir de texto, Artificial Analysis, o modelo Doubao de Geração de Imagens a partir de Texto Seedream3.0 competiu com modelos como GPT-4o, Imagen3, Midjourney v6.1 e FLUX1.1Pro, obtendo uma classificação entre os principais modelos. O Seedream3.0 já está totalmente disponível nas plataformas Doubao e Jimeng da ByteDance, fornecendo aos clientes corporativos uma poderosa capacidade de geração de imagens.

A disponibilização dos modelos Doubao Pensamento Profundo e de Geração de Imagens a partir de Texto 3.0 oferece aos clientes corporativos capacidades de raciocínio mais eficientes e gerais e capacidades de geração de imagens mais poderosas, impulsionando ainda mais a aplicação e o desenvolvimento da tecnologia de IA em diversos setores.

Relatório técnico do modelo Doubao Pensamento Profundo: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Relatório técnico do Seedream3.0: https://team.doubao.com/tech/seedream3_0