Bienvenido al programa 【Diario de IA】. Aquí encontrarás una guía para explorar el mundo de la inteligencia artificial cada día. Cada día te presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándote a comprender las tendencias tecnológicas y conocer aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haz clic para obtener más información:https://app.aibase.com/zh

1. Google Gemini 3.0 Pro comienza a ser distribuido en pequeña escala: mejora en capacidad de razonamiento, su lanzamiento oficial podría ocurrir a finales de este mes

El equipo de DeepMind de Google ha comenzado a distribuir el modelo Gemini 3.0 Pro a algunos usuarios. Este modelo mejora en capacidad de razonamiento y procesamiento multimodal, y planea lanzarse oficialmente a finales de octubre.

image.png

【Resumen de AiBase:】

🧠 El Gemini 3.0 Pro introduce una arquitectura de razonamiento Deep Think, mejorando la capacidad para manejar tareas complejas con múltiples pasos.

🌐 Soporta varios formatos de entrada como texto, imágenes, audio y video, y puede generar código completo para frontend.

🚀 Google planea lanzar una variante ligera llamada Flash, que satisfaga las necesidades de dispositivos móviles y cálculo en el borde.

2. Baidu lanza el modelo PaddleOCR-VL, líder global en la interpretación de documentos, revolucionando la tecnología OCR

El modelo PaddleOCR-VL de Baidu destaca en la interpretación de documentos, gracias a su ligereza, eficiencia, soporte multilingüe y alta precisión en la identificación, convirtiéndose en un nuevo estándar en la tecnología OCR.

image.png

【Resumen de AiBase:】

🌍 Soporta 109 idiomas, apto para múltiples tareas de procesamiento de documentos.

⚙️ Sus parámetros principales son solo 0,9B, logrando cálculos eficientes y reconocimiento preciso.

🚀 La velocidad de inferencia es significativamente mayor, superando a otros modelos principales.

3. Aisheng Technology completa una financiación de 100 millones de yuanes en la fase B+: ARR supera los 40 millones de dólares, con más de 100 millones de usuarios

Aisheng Technology ha logrado avances significativos en la generación de videos de IA, completando una financiación de 100 millones de yuanes en la fase B+. Ha alcanzado hitos como un ingreso anual recurrente (ARR) superior a los 40 millones de dólares y más de 100 millones de usuarios registrados. Su estrategia de productos y sus innovaciones técnicas ofrecen una fuerte competitividad en el mercado.

image.png

【Resumen de AiBase:】

🚀 Aisheng Technology completó una financiación de 100 millones de yuanes en la fase B+, lo que demuestra el apoyo y reconocimiento del mercado de capital.

📈 El ingreso anual recurrente (ARR) supera los 40 millones de dólares, con más de 100 millones de usuarios.

💡 Las innovaciones técnicas continúan, la versión PixVerse V5 mejora la eficiencia de generación y la calidad del video, introduciendo la función de asistente de creación de Agentes.

4. Anthropic lanza la función 'skills' de Claude: aumentando la eficiencia del trabajo con IA

Anthropic lanzó una nueva función llamada 'skills' para Claude AI, con el objetivo de mejorar la utilidad de la IA en escenarios laborales. Esta función ofrece instrucciones, scripts y recursos en forma de carpetas, permitiendo a Claude manejar tareas específicas de manera más eficiente, como documentos Excel o guías de marca. Los usuarios también pueden crear habilidades personalizadas y utilizarlas en múltiplas plataformas. Esta funcionalidad responde a iniciativas similares de OpenAI, como AgentKit, marcando un paso hacia la utilización práctica de la IA en la industria.

image.png

【Resumen de AiBase:】

🌟 Anthropic lanzó la función 'skills' de Claude, mejorando la utilidad de la IA en el trabajo.

🛠️ Los usuarios pueden crear habilidades personalizadas para que Claude se adapte mejor a escenarios laborales específicos.

🚀 Esta medida coincide con las nuevas funciones como AgentKit lanzadas por OpenAI, mostrando que la industria de la IA continúa avanzando hacia la utilidad práctica.

5. Pinterest lanza una herramienta de control de contenido de IA: los usuarios pueden personalizar la reducción de imágenes generadas por IA

Pinterest lanzó una nueva herramienta de control de contenido que permite a los usuarios limitar la proporción de contenido generado por IA en su flujo de información, respondiendo así a la insatisfacción de los usuarios. La plataforma intenta equilibrar la innovación de IA y la experiencia del usuario mediante la introducción de etiquetas de modificación de IA y proporcionando configuraciones seleccionables por los usuarios.

image.png

【Resumen de AiBase:】

🖼️ Los usuarios pueden personalizar la reducción de la proporción de imágenes generadas por IA.

🤖 Pinterest introdujo etiquetas de modificación de IA para identificar contenido generado por IA.

🌐 Pinterest busca un equilibrio entre la tecnología de IA y la experiencia del usuario.

6. LLaVA-OneVision-1.5, un modelo multimodal completamente de código abierto, supera al modelo Qwen2.5-VL

LLaVA-OneVision-1.5 es un modelo multimodal de código abierto capaz de procesar diversas entradas como imágenes y videos, y ha demostrado un excelente desempeño en varios benchmarks, superando al modelo Qwen2.5-VL.

image.png

【Resumen de AiBase:】

🧠 LLaVA-OneVision-1.5 es un nuevo modelo multimodal capaz de manejar varias formas de entrada, como imágenes y videos.

📈 El proceso de entrenamiento se divide en tres etapas, con el objetivo de mejorar eficientemente la capacidad del modelo para entender la visión y el lenguaje.

🏆 En benchmarks, LLaVA-OneVision-1.5 muestra un desempeño excelente, superando al modelo Qwen2.5-VL.

Enlaces de detalles: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. El modelo de generación de videos de OpenAI Sora 2 se presenta en la plataforma Microsoft Azure: precio de 0,1 dólares por segundo, entra en la fase de vista previa pública

Microsoft anunció que el modelo de generación de videos de Sora 2 de OpenAI ya está disponible en la versión internacional de Azure AI Foundry, entrando en la fase de vista previa pública, lo que marca el inicio de la aplicación comercial de herramientas de IA generativa de videos.

image.png

【Resumen de AiBase:】

🎥 Sora2 es un modelo de generación de videos multimodal que admite entrada de texto, imágenes y videos, generando nuevos contenidos de video.

💰 El precio es de 0,1 dólares por segundo, utilizando un modelo de cobro por duración de generación, adecuado para usuarios empresariales que realicen grandes volúmenes de uso.

🌐 Sora2 solo se lanzó en la versión internacional de Azure AI Foundry, por lo que los usuarios chinos no pueden acceder directamente por ahora.

8. El buscador de viajes Kayak lanza "Modo IA" para planificar y reservar viajes de manera más conveniente

Kayak lanzó un nuevo "Modo IA", que ayuda a los usuarios a investigar, planificar y reservar viajes mediante un chatbot integrado. Esta función utiliza la tecnología de ChatGPT para proporcionar resultados de búsqueda más contextuales y soporta preguntas abiertas para obtener consejos sobre viajes.

image.png

【Resumen de AiBase:】

🌍 Kayak lanzó el "Modo IA", permitiendo a los usuarios planificar y reservar viajes cómodamente mediante un chatbot.

🗣️ Esta función permite hacer preguntas sobre consejos de viaje y comparar diversos servicios de viaje, ofreciendo información precisa mediante la tecnología de ChatGPT.

📅 Inicialmente, el "Modo IA" solo admite inglés, pero se expandirá a más idiomas y plataformas posteriormente, e incluirá funciones de solicitud de voz.