Modelo de Pensamento Profundo Doubao e API de Geração de Imagens 3.0 Abertas para Clientes Corporativos

AIbase基地

Publicado emNotícias e Informações de IA · 7 minutos de leitura · Apr 17, 2025

A Doubao, recentemente, lançou uma série de atualizações, incluindo os modelos Doubao 1.5 · Pensamento Profundo e Doubao Modelo de Geração de Imagens a partir de Texto 3.0, que foram oficialmente disponibilizados através da API aberta da Volcano Engine para desenvolvedores e clientes corporativos. Esses dois modelos alcançaram o nível de ponta da indústria em desempenho geral em tarefas de raciocínio e tarefas gerais, e fizeram progressos significativos em raciocínio visual e geração de imagens.

O modelo Doubao 1.5 · Pensamento Profundo se destacou em tarefas de raciocínio em áreas profissionais. Sua pontuação no teste AIME2024 de raciocínio matemático igualou a do OpenAI o3-mini-high, sua pontuação no Codeforces pass@8 em competições de programação se aproximou da do OpenAI o1, e sua pontuação no GPQA de raciocínio científico se aproximou da do o3-mini-high, alcançando ou se aproximando do primeiro grupo global. Em tarefas não relacionadas a raciocínio, como escrita criativa, o modelo também demonstrou excelente capacidade de generalização, sendo capaz de lidar com cenários de uso mais amplos e complexos.

Para melhorar a capacidade geral do modelo, a equipe da Doubao otimizou as estratégias de processamento de dados, integrando dados verificáveis e criativos para atender às necessidades de várias tarefas. O aprendizado por reforço em larga escala é a tecnologia-chave para treinar modelos de raciocínio. A equipe inovou propondo um mecanismo de recompensa de dupla trilha, que considera tarefas "claramente certas ou erradas" e tarefas "subjetivas", e implementou com eficácia a otimização confiável do algoritmo. Além disso, a equipe também otimizou a arquitetura subjacente, garantindo a estabilidade, escalabilidade, reprodutibilidade e eficiência computacional do treinamento.

微信截图_20250417133712.png

O modelo Doubao Pensamento Profundo utiliza a arquitetura MoE, com um total de 200 bilhões de parâmetros e apenas 20 bilhões de parâmetros ativos, apresentando uma vantagem significativa em termos de custo de treinamento e inferência. Com base em algoritmos eficientes e um sistema de inferência de alto desempenho, o modelo oferece uma capacidade de carga simultânea extremamente alta, ao mesmo tempo em que alcança uma latência extremamente baixa de 20 milissegundos. Além disso, o modelo também possui capacidade de raciocínio visual, podendo fazer associações e reflexões sobre o que vê, expandindo enormemente os limites de aplicação do raciocínio inteligente.

O modelo Doubao de Geração de Imagens a partir de Texto 3.0 é um modelo básico de geração de imagens de alta resolução nativo, que suporta idiomas chinês e inglês, com desempenho geral significativamente melhorado em comparação com a geração anterior. Este modelo alcançou avanços significativos em resolução, precisão da estrutura da imagem gerada, precisão quantitativa, relações de atributos de múltiplos objetos, geração e layout de caracteres pequenos, efeito estético e realismo. O Seedream3.0 emprega várias estratégias para alcançar inferência eficiente; a geração de imagens de 1K de resolução leva apenas 3 segundos de ponta a ponta, permitindo a geração rápida de imagens de alta qualidade e aumentando significativamente a eficiência da criação. Além disso, o modelo também otimizou os problemas da indústria, como a geração de alta fidelidade de fontes pequenas e o layout semântico de texto multilinha, permitindo que a IA tenha capacidade de design gráfico de nível comercial.

Na arena de competição de referência de geração de imagens a partir de texto, Artificial Analysis, o modelo Doubao de Geração de Imagens a partir de Texto Seedream3.0 competiu com modelos como GPT-4o, Imagen3, Midjourney v6.1 e FLUX1.1Pro, obtendo uma classificação entre os principais modelos. O Seedream3.0 já está totalmente disponível nas plataformas Doubao e Jimeng da ByteDance, fornecendo aos clientes corporativos uma poderosa capacidade de geração de imagens.

A disponibilização dos modelos Doubao Pensamento Profundo e de Geração de Imagens a partir de Texto 3.0 oferece aos clientes corporativos capacidades de raciocínio mais eficientes e gerais e capacidades de geração de imagens mais poderosas, impulsionando ainda mais a aplicação e o desenvolvimento da tecnologia de IA em diversos setores.

Relatório técnico do modelo Doubao Pensamento Profundo: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Relatório técnico do Seedream3.0: https://team.doubao.com/tech/seedream3_0

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Modelo de Pensamento Profundo Doubao e API de Geração de Imagens 3.0 Abertas para Clientes Corporativos

AIbase基地

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Laboratório de IA de Xangai lança o primeiro benchmark de avaliação de conversão de vídeo para web IWR-Bench: pontuação geral do GPT-5 é apenas 36,35

Apenas 250 documentos! A surpreendente descoberta de que modelos de IA também podem ser manipulados

Estudo da Universidade da Pensilvânia descobre que quanto mais rude for a pergunta, maior a precisão da resposta

Aviso de Segurança de IA: Apenas 250 arquivos são necessários para contaminar um modelo de linguagem grande

Descoberta revolucionária da Anthropic: apenas 250 arquivos de intoxicação podem comprometer modelos de IA grandes

OpenAI confirma que o ChatGPT ultrapassa 800 milhões de usuários ativos por semana

Aumento significativo na precisão dos grandes modelos além da tecnologia RAG DRAG

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

A Meta lança novo modelo CWM para auxiliar no entendimento e geração de código

Juicebox, a empresa de recrutamento de IA com valor de mercado de 1 bilhão de dólares, recebe 36 milhões de dólares em financiamento: o mito de ARR de 10 milhões criado por uma equipe de 4 pessoas; Sycamore lidera a rodada A