Doubao, un gran modelo lingüístico, ha lanzado recientemente una serie de actualizaciones. Entre ellas, el modelo de razonamiento profundo Doubao 1.5 y el modelo de imagen a partir de texto Doubao 3.0 están oficialmente disponibles a través de la API abierta de Volcano Engine para desarrolladores y empresas. Ambos modelos alcanzan un nivel líder en la industria en términos de rendimiento general para tareas de inferencia y tareas generales, y han logrado avances significativos en el razonamiento visual y la generación de imágenes.
El modelo de razonamiento profundo Doubao 1.5 sobresale en tareas de inferencia en campos profesionales. Su puntuación en la prueba de razonamiento matemático AIME2024 es igual a la de OpenAI o3-mini-high, su puntuación pass@8 en las competiciones de programación Codeforces está cerca de la de OpenAI o1, y su puntuación GPQA de razonamiento científico es similar a la de o3-mini-high, alcanzando o aproximándose al primer puesto mundial. En tareas no relacionadas con el razonamiento, como la escritura creativa, el modelo también muestra excelentes capacidades de generalización, permitiéndole manejar escenarios de uso más amplios y complejos.
Para mejorar las capacidades generales del modelo, el equipo de Doubao ha optimizado las estrategias de procesamiento de datos, integrando datos verificables y creativos para satisfacer las necesidades de diversas tareas. El aprendizaje por refuerzo a gran escala es una tecnología clave para el entrenamiento de los modelos de inferencia. El equipo ha propuesto innovadoramente un mecanismo de recompensa de doble vía, considerando tanto las tareas "claramente correctas o incorrectas" como las tareas "subjetivas", y ha logrado eficazmente una optimización confiable del algoritmo. Además, el equipo ha optimizado la arquitectura subyacente, garantizando la estabilidad, la escalabilidad, la reproducibilidad y la eficiencia computacional del entrenamiento.
El modelo de razonamiento profundo Doubao utiliza una arquitectura MoE, con un total de 200 mil millones de parámetros y solo 20 mil millones de parámetros activos, ofreciendo una ventaja significativa en términos de costos de entrenamiento e inferencia. Gracias a algoritmos eficientes y a un sistema de inferencia de alto rendimiento, el modelo ofrece una capacidad de carga extremadamente alta mientras alcanza una latencia extremadamente baja de 20 milisegundos. Además, este modelo posee capacidades de razonamiento visual, capaz de asociar y reflexionar sobre las cosas que "ve", como un humano, ampliando considerablemente los límites de las aplicaciones del razonamiento inteligente.
El modelo de imagen a partir de texto Doubao 3.0 es un modelo base de generación de imágenes de alta resolución nativo, compatible con chino e inglés. Su rendimiento general se ha mejorado considerablemente en comparación con la generación anterior. Este modelo ha logrado avances significativos en términos de resolución, precisión de la estructura de la imagen generada, precisión del número de objetos, relaciones de atributos entre múltiples objetos, generación y diseño de texto pequeño, estética y realismo.
Seedream3.0 utiliza varias estrategias para lograr una inferencia eficiente. La generación de imágenes de 1000 píxeles de resolución tarda solo 3 segundos de principio a fin, permitiendo generar rápidamente imágenes de alta calidad y mejorar considerablemente la eficiencia de la creación. Además, este modelo ha optimizado problemas difíciles del sector como la generación de alta fidelidad de fuentes pequeñas y el diseño semántico de varias líneas de texto, otorgando a la IA capacidades de diseño gráfico de nivel comercial.
En el entorno competitivo de referencia de generación de imágenes Artificial Analysis, el modelo de imagen a partir de texto Doubao Seedream3.0 se ha clasificado entre los mejores, junto con modelos como GPT-4o, Imagen3, Midjourney v6.1 y FLUX1.1Pro. Seedream3.0 ya está completamente desplegado en las plataformas Doubao y Jimeng de ByteDance, ofreciendo a los clientes empresariales potentes capacidades de generación de imágenes.
La disponibilidad del modelo de razonamiento profundo Doubao y del modelo de imagen a partir de texto 3.0 ofrece a los clientes empresariales capacidades de inferencia más eficientes y generales, así como capacidades de generación de imágenes más potentes, impulsando así la aplicación y el desarrollo de las tecnologías de IA en diversos sectores.
Informe técnico del modelo de razonamiento profundo Doubao: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
Informe técnico de Seedream3.0: https://team.doubao.com/tech/seedream3_0