Diario de IA: Alibaba TONGYI libera el modelo de generación de audio ThinkSound; Google Veo3 genera videos con imágenes; Feishu presenta importantes nuevos productos de IA

Bienvenido a la sección "AI Daily"! Aquí es tu guía diaria para explorar el mundo de la inteligencia artificial. Cada día te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándote a comprender las tendencias tecnológicas y conocer aplicaciones innovadoras de productos de IA.

Productos de IA nuevos Haz clic para más información:https://top.aibase.com/

1. Alibaba Tongyi abre el modelo de generación de audio ThinkSound que admite razonamiento en cadena

El equipo de inteligencia artificial de voz de Alibaba ha abierto al público el primer modelo global de generación de audio que admite razonamiento en cadena, ThinkSound. Este modelo, al introducir la tecnología de pensamiento en cadena, supera las limitaciones de las tecnologías tradicionales de conversión de video a audio, logrando una generación de audio espacial de alta fidelidad y fuerte sincronización. Este avance tecnológico marca un salto de la IA de audio de "sintetizar audio a imágenes" a "entender visualmente de forma estructurada".

【Resumen de AiBase:】
🧠 ThinkSound combina por primera vez modelos de lenguaje de gran tamaño multimostrales con una arquitectura unificada de generación de audio, logrando una síntesis de audio precisa.
📊 El equipo de investigación construyó un conjunto de datos AudioCoT con 2531,8 horas de muestras de alta calidad, mejorando la capacidad del modelo para procesar instrucciones complejas.
🚀 ThinkSound muestra un mejor rendimiento que los métodos principales en varios conjuntos de prueba; el código y los pesos preentrenados están disponibles gratuitamente para los desarrolladores.
Enlace detallado: https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2. Veo3 de Google presenta una importante actualización, soportando la generación de videos dinámicos a partir de imágenes estáticas

Google anunció una importante actualización de su herramienta de generación de videos de IA Veo3. Los usuarios solo necesitan subir una imagen estática para generar contenido de audio y video de alta calidad, mostrando el enorme potencial de la IA en el ámbito de la creación. Las funciones principales de Veo3 incluyen mantener la coherencia de los personajes en múltiples tomas y ofrecer funciones de movimiento de cámara como el dolly in. Además, los usuarios pueden elegir diferentes modelos de generación según la calidad deseada, pero esto requiere el uso de créditos correspondientes.

【Resumen de AiBase:】
🖼️ Después de la actualización, Veo3 admite la generación de videos dinámicos a partir de una sola imagen estática.
🎥 Admite funciones de movimiento de cámara, como el dolly in, mejorando la profesionalidad del video.
🔊 Los usuarios pueden elegir modelos de diferentes calidades, pero deben consumir créditos correspondientes.

3. Hugging Face lanza SmolLM3, un modelo de parámetros pequeños de nueva generación: contexto de 128K, razonamiento en dos modos

Hugging Face lanzó SmolLM3, un modelo de código abierto pequeño con 3 mil millones de parámetros, cuyo rendimiento supera a Llama-3.2-3B y Qwen2.5-3B. El modelo admite el procesamiento de múltiples idiomas y tiene una función de razonamiento en dos modos, además de publicar detalles de la arquitectura para promover la investigación y la optimización.

【Resumen de AiBase:】
🧠 SmolLM3 tiene 3 mil millones de parámetros, supera a otros modelos de código abierto similares, y admite el procesamiento de múltiples idiomas.
⚙️ Ofrece dos modos de razonamiento, uno de profundidad y otro no reflexivo, adaptándose a diferentes necesidades.
📊 Utiliza una arquitectura avanzada de decodificador transformer y mejora sus capacidades mediante un entrenamiento híbrido en tres etapas.
Enlace detallado: https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4. Alibaba Open Sources WebSailor, con poderosas capacidades de razonamiento y recuperación

Alibaba Tongyi abrió al público el agente web WebSailor, que demostró un excelente desempeño en los conjuntos de evaluación BrowseComp en tareas en chino y en inglés, superando modelos cerrados como DeepSeek R1 y Grok-3, mostrando así poderosas capacidades de razonamiento y recuperación. Galaxy Securities señaló que la economía de agentes de IA está completamente abierta y recomendó prestar atención a empresas SAAS con una posición líder. Empresas cotizadas como Focus Technology y Zhongke Jincai ya han implementado tecnologías de agentes de IA, impulsando el desarrollo de la tecnología de agentes inteligentes.

【Resumen de AiBase:】
📌 Alibaba Tongyi abrió al público WebSailor, demostrando excelentes capacidades de razonamiento y recuperación.
📈 Galaxy Securities señala que la economía de agentes de IA está completamente abierta, recomienda prestar atención a empresas SAAS relacionadas.
💡 Empresas como Focus Technology y Zhongke Jincai tienen ventajas claras en la aplicación de tecnologías de agentes inteligentes.
Enlace detallado: https://github.com/Alibaba-NLP/WebAgent

5. Moonvalley lanza Marey Realism v1.5: modelo de video de 1080P nativo, sin riesgo de derechos de autor, liderando una nueva tendencia en la industria

El modelo de generación de video AI Marey Realism v1.5 de Moonvalley ha logrado una mejora integral en resolución, libertad creativa y cumplimiento legal. Su capacidad nativa para generar videos de 1080P, junto con datos de entrenamiento basados en contenido autorizado y la habilidad de interpretar con precisión instrucciones complejas, ofrece herramientas más seguras y eficientes para producción cinematográfica y creatividad publicitaria.

【Resumen de AiBase:】
🎥 Capacidad nativa para generar videos de 1080P, proporcionando una experiencia visual cercana a una filmación real.
🔒 Datos de entrenamiento 100% autorizados, evitando completamente los riesgos de derechos de autor.
🔄 Soporta generación de videos desde texto e imágenes, mejorando la flexibilidad creativa.

6. Vidu Q1 se actualiza con fuerza: soporta hasta siete imágenes como referencia, elevando el nivel de generación de videos de IA

La función 'Conversión de Referencia a Video' de Vidu Q1 permite a los usuarios cargar hasta siete imágenes de referencia para generar videos de 1080p con una alta coherencia visual. Esta tecnología asegura la consistencia de los elementos de múltiples imágenes en el video mediante la fusión semántica, resolviendo problemas como la ruptura de escenas o distorsiones de personajes en la generación de videos de IA tradicional, ofreciendo así una poderosa herramienta a los creadores.

【Resumen de AiBase:】
🎥 Soporta hasta siete imágenes de referencia, mejorando la flexibilidad en la creación de videos.
🔍 Tecnología de fusión semántica para garantizar una alta coherencia de los elementos de múltiples imágenes en el video.
🔄 Tecnología de coherencia entre múltiples sujetos para lograr una experiencia visual continua en escenarios complejos.

7. Apple desarrolla un asistente de atención al cliente de IA similar a ChatGPT, mejorando la experiencia de los usuarios

Apple está desarrollando un 'asistente de soporte' basado en inteligencia artificial, con el objetivo de ofrecer a los usuarios una experiencia más inteligente y eficiente en el servicio de atención al cliente. Esta función fue detectada en el código de la aplicación Apple Support, y en el futuro permitirá a los usuarios obtener soluciones generadas por IA antes de contactar al servicio de atención al cliente, mejorando la eficiencia del servicio.

【Resumen de AiBase:】
🍎 Apple está desarrollando un asistente de atención al cliente basado en IA para mejorar la eficiencia del servicio.
💬 Los usuarios podrán obtener soluciones a sus problemas a través de IA antes de contactar al servicio de atención al cliente, reduciendo el tiempo de espera.
🔄 El asistente de atención al cliente podría permitir la carga de archivos, enriqueciendo la experiencia interactiva.

8. Feishu lanza varias nuevas soluciones de IA, creando una versión empresarial de "Doubao"

Feishu lanzó varias soluciones de IA, incluyendo preguntas y respuestas, reuniones de IA, Aily, Feishu Miaoda, con el objetivo de acelerar la implementación de la IA en aplicaciones empresariales. Al mismo tiempo, Feishu también presentó el primer modelo de madurez de aplicaciones de IA en la industria, ayudando a las empresas a evaluar el impacto real de los productos de IA.

【Resumen de AiBase:】
🚀 Feishu lanza varias soluciones de IA para ayudar a las empresas a operar con inteligencia.
📊 Lanzó un modelo de madurez de aplicaciones de IA, mejorando la capacidad de las empresas para evaluar productos de IA.
📈 La funcionalidad y la capacidad de IA de Feishu Multi-Dimensional Table experimentaron un salto doble, apoyando el procesamiento de grandes volúmenes de datos.

9. Microsoft, OpenAI y Anthropic lanzan conjuntamente un centro de capacitación para docentes en IA

La Asociación Nacional de Maestros de Estados Unidos (AFT) se unió a Microsoft, OpenAI y Anthropic para crear la Academia Nacional de Inteligencia Artificial, con el objetivo de brindar capacitación gratuita en herramientas de IA a los maestros, ayudándolos a utilizar mejor la tecnología de inteligencia artificial. Este proyecto cuenta con un financiamiento de 23 millones de dólares, impulsando la transformación tecnológica en el sector educativo.

【Resumen de AiBase:】
👩‍🏫 Los maestros aprenderán nuevas tecnologías a través de capacitación en IA, asegurando su liderazgo en la educación.
💰 Microsoft, OpenAI y Anthropic proporcionan 23 millones de dólares en financiación para proyectos de educación en IA.
📚 La academia de IA se dedica a promover la democratización de la educación, asegurando que la tecnología sirva a estudiantes y maestros.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Diario de IA: Alibaba TONGYI libera el modelo de generación de audio ThinkSound; Google Veo3 genera videos con imágenes; Feishu presenta importantes nuevos productos de IA

站长之家

Este artículo proviene de AIbase Daily