Bienvenido al programa "Diario de IA"! Aquí está su guía diaria para explorar el mundo de la inteligencia artificial. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándole a comprender las tendencias tecnológicas y conocer aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. ByteDance lanza el modelo grande Douba 1.6: el primer modelo nacional que admite profundidad de pensamiento ajustable

Volcán Engine de ByteDance lanzó el modelo grande Douba 1.6, que por primera vez admite una profundidad de pensamiento ajustable, mejorando el equilibrio entre eficiencia y calidad, y presentó una versión ligera para satisfacer las necesidades empresariales.

image.png

【Resumen de AiBase:】

🧠 El modelo grande Douba 1.6 admite la regulación por categorías de la longitud del pensamiento, mejorando el equilibrio entre eficiencia y calidad.

💼 La versión Lite de Douba 1.6 optimiza escenarios empresariales, reduciendo los costos de uso.

📈 El mecanismo por categorías resuelve el problema de desperdicio de recursos de modelos tradicionales, acercándose a las necesidades reales.

2. Baidu lanza el modelo de análisis de documentos PaddleOCR-VL líder mundial, revolucionando el panorama de la tecnología OCR

El modelo PaddleOCR-VL lanzado por Baidu destaca en el campo del análisis de documentos, gracias a sus características ligeras y eficientes y un rendimiento excelente, logrando excelentes resultados en varios rankings. Este modelo admite múltiples idiomas y se aplica a diversas tareas de procesamiento de documentos inteligentes.

image.png

【Resumen de AiBase:】

✨ PaddleOCR-VL obtuvo el primer lugar global en OmniBenchDoc V1.5 con 92.6 puntos, demostrando sus capacidades en texto, tablas y fórmulas.

🔍 El modelo tiene 0,9 B de parámetros y admite 109 idiomas, adecuándose a escenarios como gestión de documentos gubernamentales y empresariales y búsqueda de conocimiento.

🚀 La velocidad de inferencia es significativamente más rápida, procesando 1881 tokens por segundo, lo que le da una ventaja clara frente a otros modelos principales.

3. Aishik Technology completa una financiación Serie B+ de 100 millones de yuanes: ARR supera los 40 millones de dólares, con más de 100 millones de usuarios registrados

Aishik Technology ha logrado avances significativos en el campo de generación de videos de IA, completando una financiación Serie B+ de 100 millones de yuanes y alcanzando un ARR superior a los 40 millones de dólares y más de 100 millones de usuarios registrados. Sus productos han fortalecido la retención de usuarios mediante operaciones socializadas y preferencias de creación local, mientras que la apertura del sistema de API también ha atraído a muchos desarrolladores terceros.

image.png

【Resumen de AiBase:】

🚀 Aishik Technology completó una financiación Serie B+ de 100 millones de yuanes, lo que demuestra la aceptación del mercado sobre su tecnología y modelo de negocio.

📈 El ARR superó los 40 millones de dólares, con más de 100 millones de usuarios registrados, indicando que su producto tiene amplia atracción en el mercado.

🌐 Después de abrir su sistema de API, se generaron más de 10 millones de videos, demostrando que su capacidad técnica fue ampliamente validada.

4. Anthropic lanza la función 'skills' de Claude: mejora la eficiencia de trabajo de la IA

Anthropic lanzó una nueva función llamada 'skills' para el robot de chat Claude, con el objetivo de mejorar la utilidad de los agentes de IA en el trabajo. Esta función consiste en una serie de carpetas que incluyen instrucciones, scripts y recursos, permitiendo a Claude mostrar una mayor capacidad en tareas específicas. Los usuarios también pueden crear habilidades personalizadas según sus necesidades y utilizar estas habilidades en múltiplas plataformas. Esta función es similar a AgentKit de OpenAI, mostrando que la industria de la IA se dirige hacia una dirección más práctica.

image.png

【Resumen de AiBase:】

🛠️ Los usuarios pueden crear habilidades personalizadas para que Claude se adapte mejor a escenarios de trabajo específicos.

🚀 Esta medida coincide con funciones nuevas como AgentKit lanzadas por OpenAI, mostrando que la industria de la IA continúa avanzando hacia una dirección más práctica.

🌟 Anthropic lanzó la función 'skills' de Claude, con el objetivo de mejorar la utilidad de la IA en el trabajo.

5. Pinterest lanza una herramienta de control de contenido de IA: los usuarios pueden personalizar la reducción de imágenes generadas por IA

Pinterest lanzó una nueva herramienta de control de contenido de IA, permitiendo a los usuarios personalizar la proporción de imágenes generadas por IA que se muestran, para abordar la insatisfacción de los usuarios con la proliferación de contenido de IA. Esta función permite a los usuarios ajustar la visualización de contenido de IA en categorías específicas y optimizar la experiencia a través de mecanismos de retroalimentación.

image.png

【Resumen de AiBase:】

🖼️ Pinterest lanzó una nueva herramienta de control de contenido, permitiendo a los usuarios limitar la proporción de contenido generado por IA en su flujo de información.

⚙️ Los usuarios pueden elegir reducir imágenes generadas por IA en categorías específicas, como belleza, arte, moda y decoración del hogar.

🔄 Mientras adopta tecnologías de IA, Pinterest intenta proteger la experiencia del usuario, equilibrando la creatividad humana con la innovación de IA.

6. LLaVA-OneVision-1.5, un modelo multiformato de código abierto, supera al modelo Qwen2.5-VL

LLaVA-OneVision-1.5 es un modelo multiformato de código abierto capaz de procesar múltiples entradas como imágenes y videos, y se desempeña bien en varios benchmarks, superando al modelo Qwen2.5-VL.

image.png

【Resumen de AiBase:】

🧠 LLaVA-OneVision-1.5 es un nuevo modelo multiformato capaz de procesar varias formas de entrada, como imágenes y videos.

📈 El proceso de entrenamiento se divide en tres etapas, con el objetivo de mejorar eficientemente la capacidad de comprensión visual y lingüística del modelo.

🏆 En benchmarks, LLaVA-OneVision-1.5 muestra un desempeño excelente, superando al modelo Qwen2.5-VL.

Enlaces detallados: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. El modelo de generación de videos de OpenAI Sora 2 se presenta en la plataforma Microsoft Azure: precio de 0.1 dólares por segundo, entra en fase de vista previa pública

Microsoft anunció que el modelo de generación de videos Sora 2 de OpenAI ya está disponible en la versión internacional de Azure AI Foundry y ha entrado en fase de vista previa pública. Este modelo admite entradas multimodales y se aplica a escenarios como producción de publicidad y videos educativos. El precio es de 0.1 dólares por segundo, pero actualmente solo está disponible para usuarios de la versión internacional.

image.png

【Resumen de AiBase:】

🎥 Sora 2 es un modelo de generación de videos desarrollado por OpenAI, que por primera vez ofrece interfaces de API a empresas a través de Azure AI Foundry.

💰 El precio es de 0.1 dólares por segundo, ideal para usuarios empresariales que necesitan generar videos cortos en masa.

🌐 Sora 2 está actualmente disponible solo en la versión internacional de Azure AI Foundry, por lo que los usuarios de China no pueden acceder todavía.

8. El buscador de viajes Kayak lanza el modo "IA": planificación y reservas de viaje más cómodas

Kayak lanzó un nuevo modo "IA", que ayuda a los usuarios a investigar, planificar y reservar viajes a través de un bot integrado. Esta función utiliza la tecnología de ChatGPT para ofrecer resultados de búsqueda más contextuales y admitir preguntas abiertas para obtener consejos de viaje.

image.png

【Resumen de AiBase:】

🌍 Kayak lanza el modo "IA", permitiendo a los usuarios planificar y reservar viajes cómodamente a través de un bot de chat.

🗣️ Esta función admite preguntar consejos de viaje y comparar diversos servicios de viaje, proporcionando información precisa gracias a la tecnología de ChatGPT.

📅 El modo "IA" inicialmente solo admite inglés, pero posteriormente se extenderá a más idiomas y plataformas, e incluirá funcionalidad de solicitud de voz.