Bienvenido al programa 【AI Daily】! Aquí es donde puedes explorar cada día el mundo de la inteligencia artificial, presentándote los temas más relevantes del sector AI y ayudándote a comprender las tendencias tecnológicas e innovaciones en aplicaciones de IA.

Productos de IA frescos ¡Haz clic para saber más!: https://top.aibase.com/

1. AliCloud lanza oficialmente Tongyi Lingma, una nueva experiencia de programación

AliCloud ha lanzado Tongyi Lingma, un entorno de desarrollo integrado (IDE) profundamente adaptado a Qwen3 con funciones inteligentes de programación, memoria a largo plazo y sugerencias predictivas entre líneas, además de la capacidad de diálogo entre líneas, lo que mejora significativamente la eficiencia de desarrollo y se ha convertido en una de las herramientas más populares de asistencia para programadores en China.

image.png

[Resumen de AiBase:]

🚀 Lanzamiento del IDE de IA: AliCloud Tongyi Lingma está disponible para descarga gratuita, iniciando una nueva era de programación eficiente.

🧠 Funciones poderosas: Soporte para agentes de programación inteligente, memoria a largo plazo y sugerencias predictivas entre líneas, mejorando significativamente la eficiencia de desarrollo y simplificando el flujo de programación.

🌐 Uso amplio: El complemento de Tongyi Lingma ha sido descargado más de 15 millones de veces, sirviendo a empresas como FAW Group y NIO, recibiendo grandes elogios.

2. Xiaomi lanza MiMo-VL, un modelo multimodal de gran tamaño, como código abierto

MiMo-VL-7B muestra un excelente rendimiento en múltiples tareas multimodales, con solo 7 mil millones de parámetros superando a modelos cerrados mucho más grandes. Su potente capacidad de percepción visual y métodos innovadores de entrenamiento lo convierten en uno de los mejores modelos abiertos.

image.png

[Resumen de AiBase:]

小米 ha desarrollado el destacado MiMo-VL-7B, que lidera en tareas de inferencia multimodal, con solo 7 mil millones de parámetros superando a Qwen-2.5-VL-72B, 10 veces mayor en tamaño.

A través de datos de preentrenamiento de alta calidad y algoritmos de aprendizaje por refuerzo mixto en línea, MiMo-VL-7B muestra excelentes capacidades generales en imágenes, videos y lenguaje.

El modelo no solo ha destacado en competiciones académicas, sino que también ha demostrado un excelente rendimiento en aplicaciones reales como la inferencia de imágenes complejas y la operación GUI, mejorando la experiencia del usuario.

Enlace detallado: https://huggingface.co/XiaomiMiMo

3. Black Forest Labs lanza FLUX.1Kontext: Puede modificar imágenes múltiples veces a partir de texto e imágenes de referencia

Black Forest Labs ha lanzado FLUX.1Kontext, un modelo poderoso de generación de imágenes que permite múltiples ediciones basadas en texto e imágenes de referencia, con características como consistencia de roles, edición local, referencia de estilo y baja latencia, proporcionando soluciones rápidas de iteración para empresas.

image.png

[Resumen de AiBase:]

Capacidad generativa contextual hace que la generación de imágenes sea más flexible y eficiente, generando a partir de imágenes de referencia o contexto en lugar de desde cero.

Soporta edición local basada en texto e imágenes de referencia, manteniendo consistencia de personajes sin afectar el estilo general de la imagen.

Como modelo de flujo, puede partir de una imagen existente y realizar ediciones flexibles instantáneas mediante simples instrucciones de texto.

Enlace detallado: https://bfl.ai/announcements/flux-1-kontext

4. Actualización masiva de Midjourney V7: velocidad de renderizado aumentada en un 40%, nuevas funciones decididas por votación de usuarios

La versión V7 de Midjourney ha introducido varias actualizaciones importantes, incluida una mejora del 40% en la velocidad de renderizado, actualizaciones del funcionamiento del moderador de IA y el inicio de la segunda ronda de votación de la hoja de ruta de la comunidad. Estas actualizaciones no solo han mejorado la eficiencia del trabajo, sino que también han enriquecido la experiencia de creación de los usuarios.

image.png

[Resumen de AiBase:]

🔥 Velocidad de renderizado incrementada en un 40%, mejorando significativamente la eficiencia de creación.

🌟 Mejoras en la función del moderador de IA, ofreciendo sugerencias de optimización más precisas.

🗳️ Inicio de la segunda ronda de votación de la hoja de ruta de la comunidad, los usuarios pueden participar en la decisión sobre el desarrollo futuro de las funciones.

Enlace detallado: https://midjourney.com/ideas

5. DeepSeek se convierte en el segundo laboratorio AGI más importante del mundo

DeepSeek R1-0528 ha logrado avances significativos en términos de rendimiento técnico y pesos abiertos, superando a xAI, Meta y Anthropic, y situándose en igualdad de condiciones con Google en el segundo lugar.

image.png

[Resumen de AiBase:]

🌟 DeepSeek R1-0528 supera a los principales laboratorios de IA, convirtiéndose en el segundo laboratorio de inteligencia artificial más grande del mundo.

📈 Índice de inteligencia saltó de 60 a 68, mostrando un progreso similar al de los modelos o1 a o3 de OpenAI.

🚀 En el campo de los pesos abiertos, se establece como líder, promoviendo la popularización y la innovación tecnológica.

6. Hugging Face entra en el mercado de robots humanoides: lanza el robot abierto HopeJR a $3000

Hugging Face ha entrado oficialmente en el mercado de robots humanoides con el lanzamiento de dos robots abiertos, HopeJR y Reachy Mini, con el objetivo de romper el monopolio de las grandes tecnológicas en la tecnología robótica.

image.png

[Resumen de AiBase:]

Lanzamiento de HopeJR y Reachy Mini, dirigidos a aplicaciones de tamaño completo y de escritorio, respectivamente.

Los robots son abiertos y asequibles, evitando que la tecnología robótica sea controlada por unas pocas grandes compañías.

La adquisición estratégica de Pollen Robotics y la planificación a largo plazo en el ecosistema robótico impulsan el desarrollo de los productos.

7. Volcán Arcoiris de ByteDance oficialmente conectado con la versión DeepSeek-R1-0528

He sabido que la plataforma Volcán Arcoiris de ByteDance ya ha conectado la última versión de DeepSeek-R1-0528, su sistema de servicios de alto rendimiento y funciones variadas brindan una experiencia eficiente y conveniente tanto para empresas como para desarrolladores.

image.png

[Resumen de AiBase:]

Volcán Arcoiris alcanza una velocidad de inferencia tan baja como 30 ms/Tok, asegurando estabilidad y fluidez interactiva en tiempo real.

Ofrece soporte funcional, como llamadas de función y conexión en línea, cubriendo diversas aplicaciones y satisfaciendo necesidades de alto volumen de tráfico.

Ofreciendo descuentos del 50% para nuevos clientes y diversas vías de acceso para experiencias, facilita el uso rápido y la implementación práctica de modelos grandes.

8. Anthropic lanza herramienta de 'seguimiento de circuitos': desbloquea el 'cerebro' de IA y revela todo el proceso de decisión del modelo grande

Anthropic ha lanzado una herramienta llamada 'Tracking Circuit', que genera gráficos de atribución para mostrar las rutas internas de decisiones de los modelos de lenguaje grandes, mejorando la comprensión del mecanismo de decisión de IA y promoviendo el desarrollo transparente de la tecnología de IA.

image.png

[Resumen de AiBase:]

✨ La herramienta 'Tracking Circuit' revela las rutas de decisión internas de los modelos grandes, visualizando el 'pensamiento' de la IA.

🔍 Ofrece un frontend interactivo llamado Neuronpedia, reduciendo la barrera de entrada y permitiendo que personas sin conocimientos técnicos comprendan el proceso de decisión de los modelos grandes.

🌐 Empoderamiento abierto, promoviendo la transparencia y controlabilidad de la IA, ayudando a resolver desafíos éticos y de seguridad como las ilusiones y sesgos del modelo.

9. Alibaba lanza WebAgent, un agente inteligente de búsqueda autónoma, para hacer la investigación más eficiente

Estoy muy impresionado con WebAgent, este agente inteligente puede simular el comportamiento humano en ambientes en línea para buscar, analizar y tomar decisiones activamente, mejorando significativamente la eficiencia de recuperación de información. Sus dos módulos bien definidos, WebDancer y WebWalker, respectivamente responsables del entrenamiento del agente inteligente y la evaluación de los modelos de lenguaje, especialmente la capacidad de razonamiento en múltiples pasos de WebDancer, es impresionante.

image.png

[Resumen de AiBase:]

🔍 WebAgent tiene la capacidad de recuperación de información de extremo a extremo y capacidad de razonamiento en múltiples pasos, puede buscar, analizar y tomar decisiones activamente, mejorando significativamente la eficiencia de la investigación.

📚 WebAgent realiza búsquedas de información complejas a través de los módulos WebDancer y WebWalker, donde la capacidad de algoritmos innovadores de WebDancer mejora significativamente la eficiencia de los datos y la robustez de las estrategias.

🌐 WebAgent apoya aplicaciones en múltiples campos, como investigación académica y análisis de mercado, puede integrar diferentes documentos para generar informes de investigación integrales.

Enlace detallado: https://github.com/Alibaba-NLP/WebAgent

10. Hume lanza el modelo de lenguaje de voz Hume EVI3: baja latencia, alta emoción

Hume ha lanzado el nuevo modelo de lenguaje de voz EVI3, que destaca por tener baja latencia y alta expresividad emocional en la generación de voz, revolucionando la interacción de voz.

image.png

[Resumen de AiBase:]

Tecnología innovadora de conversión de voz a voz, soporta la generación de cualquier estilo de voz y transmite precisamente emociones y tonos.

La característica de baja latencia asegura un diálogo fluido en tiempo real, mejorando la inmersión y la eficiencia de la interacción.

Ampliamente aplicable en asistentes virtuales, educación, entretenimiento y escenarios multilingües, mostrando un valor práctico significativo.

Enlace detallado: https://demo.hume.ai

11. Manus Slides lanzada de manera masiva: genere diapositivas profesionales con un solo prompt

Manus ha lanzado la nueva función Manus Slides, que genera diapositivas estructuradas rápidamente con un solo prompt, aplicable en múltiples escenarios, mejorando significativamente la eficiencia en la creación de presentaciones.

image.png

[Resumen de AiBase:]

✨ Generación inteligente y edición eficiente: ingrese un breve prompt y el AI generará y optimizará automáticamente el contenido de las diapositivas, admitiendo ajustes inmediatos.

🎯 Aplicación amplia: ideal para negocios, educación y creatividad, ayudando a producir presentaciones de alta calidad rápidamente.

🌐 Promover la competitividad global: procesos automatizados impulsados por IA bajan las barreras y promueven la innovación de herramientas de productividad.

12. ¡Transforme sus fotos en arte con un solo clic! Runway Gen-4 References desbloquea nuevas formas de jugar con la cámara

La función Gen-4References de Runway ahora admite dispositivos móviles, los usuarios pueden subir fotos desde sus teléfonos y combinarlas con pistas de lenguaje natural para generar obras de arte consistentes, aumentando significativamente la comodidad y diversidad de la creación.