Diario de IA: Volcán Engine lanza Doubao 3.0; Qwen3 de Tongyi se abre a la comunidad; Google actualiza discretamente Imagen 4

Bienvenido a la sección "Diario de IA"! Aquí encontrarás una guía diaria para explorar el mundo de la inteligencia artificial. Cada día te presentamos las noticias más destacadas del ámbito de la IA, enfocándonos en los desarrolladores para que puedas comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de la IA.

Productos de IA recientes Haga clic para más información:https://top.aibase.com/

1. Volcán Engine presenta nuevos modelos de edición de imágenes y traducción simultánea de Doubao, acelerando el desarrollo de Agentes

En el evento de la estación de Xiamen, Volcán Engine presentó nuevos modelos de la serie Doubao y los avances en servicios de nube nativa de IA, incluyendo el modelo de edición de imágenes 3.0, el modelo de traducción simultánea 2.0 y la serie de grandes modelos 1.6. Además, lanzó la capacidad central de Kousi para su apertura y soluciones para alojar modelos propios de empresas, ayudando a los desarrolladores a construir Agentes y aplicaciones de IA.

【Resumen de AiBase:】
🔥 El modelo de edición de imágenes 3.0 de Doubao mejora la capacidad de procesamiento de instrucciones de lenguaje natural, adecuado para la creación de imágenes y la publicidad.
🎙️ El modelo de traducción simultánea 2.0 de Doubao logra la generación de voz con bajo retraso, compatible con acentos regionales.
🚀 La serie de grandes modelos 1.6 de Doubao optimiza la capacidad de código, razonamiento y matemáticas, reduciendo el retraso y los costos.

2. Qwen3-30B-A3B-Instruct-2507 de Tongyi Qianwen se libera como modelo no pensante

La nueva versión de Qwen3-30B-A3B-Instruct-2507 destaca en el modo no pensante, ofreciendo un rendimiento comparable al de modelos cerrados de élite, logrando mejoras significativas en múltiples áreas y soportando múltiples idiomas y procesamiento de texto largo, proporcionando una plataforma abierta conveniente para desarrolladores e investigadores.

【Resumen de AiBase:】
🧠 La nueva versión Qwen3-30B-A3B-Instruct-2507 activa solo 3B parámetros en el modo no pensante, ofreciendo un rendimiento comparable a modelos cerrados de élite como Gemini2.5-Flash(non-thinking) y GPT-4o.
🌐 Capacidad general mejorada, que incluye seguimiento de instrucciones, razonamiento lógico, comprensión de texto, matemáticas, ciencia, programación y uso de herramientas.
📚 Capacidad de comprensión de texto largo alcanza 256K, cubriendo conocimientos de lenguas minoritarias en múltiples idiomas, ideal para escenarios globales.

3. OpenAI lanza un nuevo asistente de aprendizaje ChatGPT Study

OpenAI lanzó un nuevo modo de aprendizaje de ChatGPT Study, diseñado para ofrecer una experiencia de aprendizaje personalizada e interactiva a estudiantes y educadores. Esta función integra sugerencias interactivas, respuestas estructuradas, educación personalizada y verificación de conocimientos, y es aplicable a diversas disciplinas, disponible para todos los usuarios.

【Resumen de AiBase:】
🚀 ChatGPT Study ofrece una experiencia de aprendizaje personalizada e interactiva, ideal para estudiantes y educadores.
📚 Integra cuatro funciones principales, incluyendo sugerencias interactivas, respuestas estructuradas, educación personalizada y verificación de conocimientos.
🌐 Esta función está disponible para todos los usuarios gratuitos, Plus, Pro y Team, marcando un avance adicional de OpenAI en la tecnología educativa.

4. China lanza el modelo de restauración de imágenes HYPIR, convirtiendo fotos antiguas en imágenes de 8K en 1,7 segundos

El lanzamiento del modelo de restauración de imágenes HYPIR muestra la innovación de China en el campo de la inteligencia artificial y trae cambios revolucionarios en múltiples áreas como la herencia cultural, la restauración cinematográfica y la investigación médica.

【Resumen de AiBase:】
🧠 El modelo de restauración de imágenes HYPIR puede restaurar fotos antiguas a resolución ultra alta de 8K en 1,7 segundos
📄 HYPIR destaca en la fidelidad de los textos, pudiendo recuperar con alta fidelidad el contenido textual
🚀 El lanzamiento de HYPIR marca una nueva era en la tecnología de restauración de imágenes

5. Google lanza la función de resumen de video en NotebookLM, mejorando la experiencia de aprendizaje

Google lanzó la función de resumen de video en NotebookLM, convirtiendo información compleja en diapositivas con narración, ofreciendo a los usuarios una experiencia de aprendizaje más intuitiva. Esta función puede extraer información de los materiales subidos por los usuarios y planea extenderse a soporte multilingüe en el futuro.

【Resumen de AiBase:】
📹 Nueva función: Google lanza la función de resumen de video en NotebookLM, añadiendo una experiencia visual intuitiva al aprendizaje.
📄 Capacidad de extracción de datos: Esta función puede extraer información de los materiales subidos por los usuarios, generando automáticamente diapositivas con narración.
🌍 Expansión futura: La función de resumen de video soportará múltiples idiomas y continuará expandiéndose y mejorándose en forma.

6. Google actualiza discretamente Imagen 4! Supera a GPT-4o, ¿vuelve a ser el rey de la generación de imágenes AI?

Google realizó una importante actualización a su modelo de generación de imágenes desde texto Imagen4, y la versión Imagen4Ultra se ubicó en el tercer lugar en la clasificación de competencias de imágenes de Artificial Analysis, junto con GPT-4o de OpenAI y Seedream3.0, convirtiéndose en uno de los modelos de generación de imágenes más destacados a nivel mundial. Destaca en calidad de imagen, manejo de instrucciones complejas, ventaja de precio y velocidad de generación.

【Resumen de AiBase:】
🖼️ Imagen4Ultra destaca en detalles de imagen, realismo y coherencia de estilo, mostrando un rendimiento significativamente mejorado.
💰 El precio de las versiones estándar y Ultra de Imagen4 es mucho más bajo que el de GPT-4o, ofreciendo buena relación calidad-precio.
⚡ El tiempo promedio para generar una imagen con Imagen4Ultra es de solo 9,5 segundos, superando a la mayoría de sus competidores en eficiencia.

7. Kunlun Wanzhi lanza el modelo de preentrenamiento multimodal unificado Skywork UniPic

El modelo de preentrenamiento multimodal unificado Skywork UniPic lanzado por Kunlun Wanzhi combina capacidades de comprensión de imágenes, generación de imágenes a partir de texto y edición de imágenes, basado en una gran cantidad de datos para un preentrenamiento end-to-end, mostrando excelentes capacidades generales y transferibles. El modelo destaca en desempeño, especialmente en tarjetas gráficas de nivel de consumo, reduciendo significativamente la barrera técnica de aplicación.

【Resumen de AiBase:】
🧠 El codificador MAR y la red principal SigLIP2 logran una colaboración profunda entre tareas.
🖼️ Soporta operaciones complejas como comprensión de imágenes, generación y conversión de estilo.
🚀 Una escala de parámetros de 1,5B se acerca al rendimiento de modelos grandes unificados.
Enlace detallado: https://huggingface.co/Skywork/Skywork-UniPic-1.5B

8. Ideal i8 lanza, primer modelo de conductor inteligente, precio desde 321.800 yuanes!

El automóvil Ideal lanzó un nuevo SUV eléctrico de seis plazas - Ideal i8, disponible en tres versiones, con precios de 321.800 yuanes, 349.800 yuanes y 369.800 yuanes respectivamente. El vehículo ofrece configuraciones técnicas generosas, equipado estándar con un sistema de doble motor y tracción a las cuatro ruedas, batería propia de 5C y radar láser, y es el primer modelo global de VLA para conductores, mejorando la seguridad y la inteligencia del vehículo.

【Resumen de AiBase:】
🚗 El Ideal i8 equipa un sistema de doble motor y tracción a las cuatro ruedas, con potencia máxima de 400kW y torque de 660Nm.
🔋 La batería propia de 5C ofrece dos capacidades, con alcance de 670 km y 720 km respectivamente.
🤖 Es el primer modelo de conductor VLA a nivel mundial, compatible con interacción de lenguaje natural, mejorando la experiencia de operación inteligente.

9. Google lanza el modo de búsqueda de IA en Reino Unido, mejorando la experiencia de resolución de preguntas complejas

Google lanzó un nuevo modo de búsqueda de IA en el Reino Unido, capaz de ayudar a los usuarios a plantear preguntas más complejas y obtener respuestas precisas impulsadas por IA. Este modo se basa en el modelo Gemini2.5, utiliza tecnología de expansión de consultas para explorar profundamente el contenido de Internet y admite varios métodos de interacción, como preguntas por texto, voz o imagen.

【Resumen de AiBase:】
🧠 El modo de IA se basa en el modelo Gemini2.5 más reciente de Google, admitiendo el procesamiento de preguntas complejas y multippartes.
🔍 La tecnología de expansión de consultas descompone las preguntas de los usuarios en múltiples temas secundarios, explorando profundamente el contenido de Internet.
📱 Admite preguntas por voz e imagen, mejorando la experiencia de interacción y comodidad.

10. Kunlun Wanzhi lanza el modelo de preentrenamiento multimodal unificado Skywork UniPic, integrando capacidades de generación e interpretación de imágenes

Kunlun Wanzhi lanzó el modelo de preentrenamiento multimodal unificado Skywork UniPic, que integra funciones de comprensión de imágenes, generación de imágenes a partir de texto y edición de imágenes. Este modelo se preentrena en una gran cantidad de datos de alta calidad, mostrando una buena generalidad y transferibilidad. Su diseño ligero de 1,5B parámetros tiene un rendimiento cercano al de modelos grandes, y mejoró el desempeño mediante una construcción de datos precisa y entrenamiento en varias etapas.

【Resumen de AiBase:】
📷 Skywork UniPic integra tres funciones: comprensión de imágenes, generación de imágenes a partir de texto y edición de imágenes, logrando una multimodalidad unificada.
💡 Utiliza una escala de parámetros ligeros de 1,5B, con un rendimiento cercano al de modelos grandes, facilitando el uso por parte de los desarrolladores.
🚀 Mejoró el desempeño del modelo en la ejecución de tareas instructivas y complejas mediante entrenamiento en varias etapas y construcción de datos precisos.
Enlace detallado: https://huggingface.co/Skywork/Skywork-UniPic-1.5B

11. El equipo OWL lanza una herramienta de múltiples agentes llamada Eigent

Eigent es una herramienta de colaboración de múltiples agentes desarrollada por el equipo CAMEL-AI, construida sobre el marco OWL, con el objetivo de mejorar la eficiencia en la resolución de tareas complejas. Su núcleo radica en la descomposición de tareas y su ejecución paralela, admitiendo múltiples modelos de lenguaje grande y el procesamiento de datos multimodales, demostrando las ventajas de rendimiento y accesibilidad de la IA abierta.

【Resumen de AiBase:】

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Diario de IA: Volcán Engine lanza Doubao 3.0; Qwen3 de Tongyi se abre a la comunidad; Google actualiza discretamente Imagen 4

站长之家

Este artículo proviene de AIbase Daily