El modelo de pensamiento profundo Doubao y el modelo de generación de imágenes por texto 3.0 abren oficialmente su API para clientes empresariales

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Apr 17, 2025

21

Doubao, un gran modelo lingüístico, ha lanzado recientemente una serie de actualizaciones. Entre ellas, el modelo de razonamiento profundo Doubao 1.5 y el modelo de imagen a partir de texto Doubao 3.0 están oficialmente disponibles a través de la API abierta de Volcano Engine para desarrolladores y empresas. Ambos modelos alcanzan un nivel líder en la industria en términos de rendimiento general para tareas de inferencia y tareas generales, y han logrado avances significativos en el razonamiento visual y la generación de imágenes.

El modelo de razonamiento profundo Doubao 1.5 sobresale en tareas de inferencia en campos profesionales. Su puntuación en la prueba de razonamiento matemático AIME2024 es igual a la de OpenAI o3-mini-high, su puntuación pass@8 en las competiciones de programación Codeforces está cerca de la de OpenAI o1, y su puntuación GPQA de razonamiento científico es similar a la de o3-mini-high, alcanzando o aproximándose al primer puesto mundial. En tareas no relacionadas con el razonamiento, como la escritura creativa, el modelo también muestra excelentes capacidades de generalización, permitiéndole manejar escenarios de uso más amplios y complejos.

Para mejorar las capacidades generales del modelo, el equipo de Doubao ha optimizado las estrategias de procesamiento de datos, integrando datos verificables y creativos para satisfacer las necesidades de diversas tareas. El aprendizaje por refuerzo a gran escala es una tecnología clave para el entrenamiento de los modelos de inferencia. El equipo ha propuesto innovadoramente un mecanismo de recompensa de doble vía, considerando tanto las tareas "claramente correctas o incorrectas" como las tareas "subjetivas", y ha logrado eficazmente una optimización confiable del algoritmo. Además, el equipo ha optimizado la arquitectura subyacente, garantizando la estabilidad, la escalabilidad, la reproducibilidad y la eficiencia computacional del entrenamiento.

微信截图_20250417133712.png

El modelo de razonamiento profundo Doubao utiliza una arquitectura MoE, con un total de 200 mil millones de parámetros y solo 20 mil millones de parámetros activos, ofreciendo una ventaja significativa en términos de costos de entrenamiento e inferencia. Gracias a algoritmos eficientes y a un sistema de inferencia de alto rendimiento, el modelo ofrece una capacidad de carga extremadamente alta mientras alcanza una latencia extremadamente baja de 20 milisegundos. Además, este modelo posee capacidades de razonamiento visual, capaz de asociar y reflexionar sobre las cosas que "ve", como un humano, ampliando considerablemente los límites de las aplicaciones del razonamiento inteligente.

El modelo de imagen a partir de texto Doubao 3.0 es un modelo base de generación de imágenes de alta resolución nativo, compatible con chino e inglés. Su rendimiento general se ha mejorado considerablemente en comparación con la generación anterior. Este modelo ha logrado avances significativos en términos de resolución, precisión de la estructura de la imagen generada, precisión del número de objetos, relaciones de atributos entre múltiples objetos, generación y diseño de texto pequeño, estética y realismo.

Seedream3.0 utiliza varias estrategias para lograr una inferencia eficiente. La generación de imágenes de 1000 píxeles de resolución tarda solo 3 segundos de principio a fin, permitiendo generar rápidamente imágenes de alta calidad y mejorar considerablemente la eficiencia de la creación. Además, este modelo ha optimizado problemas difíciles del sector como la generación de alta fidelidad de fuentes pequeñas y el diseño semántico de varias líneas de texto, otorgando a la IA capacidades de diseño gráfico de nivel comercial.

En el entorno competitivo de referencia de generación de imágenes Artificial Analysis, el modelo de imagen a partir de texto Doubao Seedream3.0 se ha clasificado entre los mejores, junto con modelos como GPT-4o, Imagen3, Midjourney v6.1 y FLUX1.1Pro. Seedream3.0 ya está completamente desplegado en las plataformas Doubao y Jimeng de ByteDance, ofreciendo a los clientes empresariales potentes capacidades de generación de imágenes.

La disponibilidad del modelo de razonamiento profundo Doubao y del modelo de imagen a partir de texto 3.0 ofrece a los clientes empresariales capacidades de inferencia más eficientes y generales, así como capacidades de generación de imágenes más potentes, impulsando así la aplicación y el desarrollo de las tecnologías de IA en diversos sectores.

Informe técnico del modelo de razonamiento profundo Doubao: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Informe técnico de Seedream3.0: https://team.doubao.com/tech/seedream3_0

Modelodelenguajegrandedefrijoles Modelodelenguajedellama Modelodepensamientoprofundo Modelodeimagendetexto

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services

AI Model Compatibility Checker

AI Deployment Calculator

El modelo de pensamiento profundo Doubao y el modelo de generación de imágenes por texto 3.0 abren oficialmente su API para clientes empresariales

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Nueva función de "Pensar mientras se busca" de Doubao: mejora la experiencia combinada de pensamiento y búsqueda

Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

Noticias de IA relacionadas recomendadas

Nueva función de "Pensar mientras se busca" de Doubao: mejora la experiencia combinada de pensamiento y búsqueda

Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

El modelo de pensamiento profundo Doubao y el modelo de generación de imágenes por texto 3.0 abren oficialmente su API para clientes empresariales

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

Nueva función de "Pensar mientras se busca" de Doubao: mejora la experiencia combinada de pensamiento y búsqueda

Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

Noticias de IA relacionadas recomendadas

Nueva función de "Pensar mientras se busca" de Doubao: mejora la experiencia combinada de pensamiento y búsqueda

Lanzamiento oficial del modelo de pensamiento profundo autodesarrollado de Tencent, "T1"

GEO Services