Diario de IA: ByteDance lanza el modelo grande Dou Bao 1.6; Aishitech completa una financiación de 100 millones de yuanes en la ronda B+; Baidu lanza el modelo de análisis de documentos PaddleOCR-VL

站长之家

Publicado elNoticias de IA · 13 minutos de lectura · Oct 17, 2025

Bienvenido al programa "Diario de IA"! Aquí está su guía diaria para explorar el mundo de la inteligencia artificial. Cada día, le presentamos los temas más destacados en el campo de la IA, enfocándonos en desarrolladores y ayudándole a comprender las tendencias tecnológicas y conocer aplicaciones innovadoras de productos de IA.

Productos de IA recientes Haga clic para más información:https://app.aibase.com/zh

1. ByteDance lanza el modelo grande Douba 1.6: el primer modelo nacional que admite profundidad de pensamiento ajustable

Volcán Engine de ByteDance lanzó el modelo grande Douba 1.6, que por primera vez admite una profundidad de pensamiento ajustable, mejorando el equilibrio entre eficiencia y calidad, y presentó una versión ligera para satisfacer las necesidades empresariales.

【Resumen de AiBase:】
🧠 El modelo grande Douba 1.6 admite la regulación por categorías de la longitud del pensamiento, mejorando el equilibrio entre eficiencia y calidad.
💼 La versión Lite de Douba 1.6 optimiza escenarios empresariales, reduciendo los costos de uso.
📈 El mecanismo por categorías resuelve el problema de desperdicio de recursos de modelos tradicionales, acercándose a las necesidades reales.

2. Baidu lanza el modelo de análisis de documentos PaddleOCR-VL líder mundial, revolucionando el panorama de la tecnología OCR

El modelo PaddleOCR-VL lanzado por Baidu destaca en el campo del análisis de documentos, gracias a sus características ligeras y eficientes y un rendimiento excelente, logrando excelentes resultados en varios rankings. Este modelo admite múltiples idiomas y se aplica a diversas tareas de procesamiento de documentos inteligentes.

【Resumen de AiBase:】
✨ PaddleOCR-VL obtuvo el primer lugar global en OmniBenchDoc V1.5 con 92.6 puntos, demostrando sus capacidades en texto, tablas y fórmulas.
🔍 El modelo tiene 0,9 B de parámetros y admite 109 idiomas, adecuándose a escenarios como gestión de documentos gubernamentales y empresariales y búsqueda de conocimiento.
🚀 La velocidad de inferencia es significativamente más rápida, procesando 1881 tokens por segundo, lo que le da una ventaja clara frente a otros modelos principales.

3. Aishik Technology completa una financiación Serie B+ de 100 millones de yuanes: ARR supera los 40 millones de dólares, con más de 100 millones de usuarios registrados

Aishik Technology ha logrado avances significativos en el campo de generación de videos de IA, completando una financiación Serie B+ de 100 millones de yuanes y alcanzando un ARR superior a los 40 millones de dólares y más de 100 millones de usuarios registrados. Sus productos han fortalecido la retención de usuarios mediante operaciones socializadas y preferencias de creación local, mientras que la apertura del sistema de API también ha atraído a muchos desarrolladores terceros.

【Resumen de AiBase:】
🚀 Aishik Technology completó una financiación Serie B+ de 100 millones de yuanes, lo que demuestra la aceptación del mercado sobre su tecnología y modelo de negocio.
📈 El ARR superó los 40 millones de dólares, con más de 100 millones de usuarios registrados, indicando que su producto tiene amplia atracción en el mercado.
🌐 Después de abrir su sistema de API, se generaron más de 10 millones de videos, demostrando que su capacidad técnica fue ampliamente validada.

4. Anthropic lanza la función 'skills' de Claude: mejora la eficiencia de trabajo de la IA

Anthropic lanzó una nueva función llamada 'skills' para el robot de chat Claude, con el objetivo de mejorar la utilidad de los agentes de IA en el trabajo. Esta función consiste en una serie de carpetas que incluyen instrucciones, scripts y recursos, permitiendo a Claude mostrar una mayor capacidad en tareas específicas. Los usuarios también pueden crear habilidades personalizadas según sus necesidades y utilizar estas habilidades en múltiplas plataformas. Esta función es similar a AgentKit de OpenAI, mostrando que la industria de la IA se dirige hacia una dirección más práctica.

【Resumen de AiBase:】
🛠️ Los usuarios pueden crear habilidades personalizadas para que Claude se adapte mejor a escenarios de trabajo específicos.
🚀 Esta medida coincide con funciones nuevas como AgentKit lanzadas por OpenAI, mostrando que la industria de la IA continúa avanzando hacia una dirección más práctica.
🌟 Anthropic lanzó la función 'skills' de Claude, con el objetivo de mejorar la utilidad de la IA en el trabajo.

5. Pinterest lanza una herramienta de control de contenido de IA: los usuarios pueden personalizar la reducción de imágenes generadas por IA

Pinterest lanzó una nueva herramienta de control de contenido de IA, permitiendo a los usuarios personalizar la proporción de imágenes generadas por IA que se muestran, para abordar la insatisfacción de los usuarios con la proliferación de contenido de IA. Esta función permite a los usuarios ajustar la visualización de contenido de IA en categorías específicas y optimizar la experiencia a través de mecanismos de retroalimentación.

【Resumen de AiBase:】
🖼️ Pinterest lanzó una nueva herramienta de control de contenido, permitiendo a los usuarios limitar la proporción de contenido generado por IA en su flujo de información.
⚙️ Los usuarios pueden elegir reducir imágenes generadas por IA en categorías específicas, como belleza, arte, moda y decoración del hogar.
🔄 Mientras adopta tecnologías de IA, Pinterest intenta proteger la experiencia del usuario, equilibrando la creatividad humana con la innovación de IA.

6. LLaVA-OneVision-1.5, un modelo multiformato de código abierto, supera al modelo Qwen2.5-VL

LLaVA-OneVision-1.5 es un modelo multiformato de código abierto capaz de procesar múltiples entradas como imágenes y videos, y se desempeña bien en varios benchmarks, superando al modelo Qwen2.5-VL.

【Resumen de AiBase:】
🧠 LLaVA-OneVision-1.5 es un nuevo modelo multiformato capaz de procesar varias formas de entrada, como imágenes y videos.
📈 El proceso de entrenamiento se divide en tres etapas, con el objetivo de mejorar eficientemente la capacidad de comprensión visual y lingüística del modelo.
🏆 En benchmarks, LLaVA-OneVision-1.5 muestra un desempeño excelente, superando al modelo Qwen2.5-VL.
Enlaces detallados: https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

7. El modelo de generación de videos de OpenAI Sora 2 se presenta en la plataforma Microsoft Azure: precio de 0.1 dólares por segundo, entra en fase de vista previa pública

Microsoft anunció que el modelo de generación de videos Sora 2 de OpenAI ya está disponible en la versión internacional de Azure AI Foundry y ha entrado en fase de vista previa pública. Este modelo admite entradas multimodales y se aplica a escenarios como producción de publicidad y videos educativos. El precio es de 0.1 dólares por segundo, pero actualmente solo está disponible para usuarios de la versión internacional.

【Resumen de AiBase:】
🎥 Sora 2 es un modelo de generación de videos desarrollado por OpenAI, que por primera vez ofrece interfaces de API a empresas a través de Azure AI Foundry.
💰 El precio es de 0.1 dólares por segundo, ideal para usuarios empresariales que necesitan generar videos cortos en masa.
🌐 Sora 2 está actualmente disponible solo en la versión internacional de Azure AI Foundry, por lo que los usuarios de China no pueden acceder todavía.

8. El buscador de viajes Kayak lanza el modo "IA": planificación y reservas de viaje más cómodas

Kayak lanzó un nuevo modo "IA", que ayuda a los usuarios a investigar, planificar y reservar viajes a través de un bot integrado. Esta función utiliza la tecnología de ChatGPT para ofrecer resultados de búsqueda más contextuales y admitir preguntas abiertas para obtener consejos de viaje.

【Resumen de AiBase:】
🌍 Kayak lanza el modo "IA", permitiendo a los usuarios planificar y reservar viajes cómodamente a través de un bot de chat.
🗣️ Esta función admite preguntar consejos de viaje y comparar diversos servicios de viaje, proporcionando información precisa gracias a la tecnología de ChatGPT.
📅 El modo "IA" inicialmente solo admite inglés, pero posteriormente se extenderá a más idiomas y plataformas, e incluirá funcionalidad de solicitud de voz.

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Liao Qian, ex responsable de productos de inteligencia artificial de CapCut de Bytedance, fundó la empresa 'Contexto extremo', dedicada al desarrollo de Agentes multimodales para marketing. Gracias a su amplia experiencia en el campo de AIGC, logró una ronda de financiación inicial de varios millones de dólares. Liao Qian trabajó previamente en Tencent y Bytedance, y desde 2019 se ha dedicado a la tecnología AIGC, atrayendo la atención del sector.

El Instituto de Ciencia y Tecnología de China y ByteDance presentan el modelo de generación de videos largos MoGA: generación de cortos con múltiples escenas en un solo clic en minutos

La Universidad de Ciencia y Tecnología de China y ByteDance han lanzado conjuntamente un modelo de generación de videos largos de extremo a extremo, que puede generar directamente videos de alta calidad de minutos, resolución de 480p y 24fps, y admite conmutación entre múltiples escenas. La innovación principal es el algoritmo de nivel inferior MoGA, una nueva mecanismo de atención especializado en resolver los problemas de generación de videos largos, lo que marca un avance clave en la tecnología de generación de videos nacional.

El equipo Seed de ByteDance anuncia el lanzamiento del modelo grande de generación 3D Seed 3D 1.0

El equipo Seed de ByteDance anunció recientemente el lanzamiento del modelo grande de generación 3D Seed3D1.0, que puede generar modelos 3D de alta calidad de forma end-to-end a partir de una sola imagen, incluyendo geometría detallada, texturas realistas y materiales basados en renderizado físico (PBR). Este logro innovador promete proporcionar un potente simulador del mundo para el desarrollo de inteligencia corporal, resolviendo los cuellos de botella en las capacidades de interacción física y la diversidad de contenido en la tecnología actual. Durante el desarrollo, el equipo Seed recopiló y procesó una gran cantidad de datos 3D de alta calidad, construyendo una completa tres

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Diario de IA: ByteDance lanza el modelo grande Dou Bao 1.6; Aishitech completa una financiación de 100 millones de yuanes en la ronda B+; Baidu lanza el modelo de análisis de documentos PaddleOCR-VL

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Diario de IA: Lanzamiento de Video 1.0 Pro Fast de Douyin; Nuevas funciones de Gemini de Google; Bai Du presenta el modelo deportivo de gran tamaño 2.0

¡Avances en edición de imágenes con IA! ByteDance colabora con la Universidad de Hong Kong y otras instituciones para abrir al público DreamOmni2, resolviendo el problema de que las IA entiendan conceptos abstractos

El Instituto de Ciencia y Tecnología de China y ByteDance presentan el modelo de generación de videos largos MoGA: generación de cortos con múltiples escenas en un solo clic en minutos

El equipo Seed de ByteDance anuncia el lanzamiento del modelo grande de generación 3D Seed 3D 1.0

El asistente de inteligencia artificial de ByteDance, Cici, llega al primer lugar en las listas de aplicaciones en varios países extranjeros: estrategia de doble marca con Doubaobao en China

Diario de IA: Google Gemini 3.0 Pro se distribuye en pequeña escala; Aishitech completa una ronda de financiación B+ de 100 millones de yuanes; Baidu lanza el modelo de análisis de documentos PaddleOCR-VL

El modelo de gran tamaño Douba de ByteDance: llamadas diarias superan los 30 billones de tokens, un crecimiento sorprendente!

Volcán Engine lanza cuatro modelos poderosos, la función de síntesis y copia de voz se mejora nuevamente

Noticias de IA: LiblibAI 2.0 está disponible oficialmente; Tongyi Qianwen, Doubao activan la función de memoria; Sora ya está disponible en Google Play

Noticias de IA relacionadas recomendadas

El ex responsable de productos de inteligencia artificial de CapCut de Bytedance, Liao Qian, inicia su propio emprendimiento y presenta un Agente multimodal para marketing

Diario de IA: Lanzamiento de Video 1.0 Pro Fast de Douyin; Nuevas funciones de Gemini de Google; Bai Du presenta el modelo deportivo de gran tamaño 2.0

¡Avances en edición de imágenes con IA! ByteDance colabora con la Universidad de Hong Kong y otras instituciones para abrir al público DreamOmni2, resolviendo el problema de que las IA entiendan conceptos abstractos

El Instituto de Ciencia y Tecnología de China y ByteDance presentan el modelo de generación de videos largos MoGA: generación de cortos con múltiples escenas en un solo clic en minutos

El equipo Seed de ByteDance anuncia el lanzamiento del modelo grande de generación 3D Seed 3D 1.0

El asistente de inteligencia artificial de ByteDance, Cici, llega al primer lugar en las listas de aplicaciones en varios países extranjeros: estrategia de doble marca con Doubaobao en China

Diario de IA: Google Gemini 3.0 Pro se distribuye en pequeña escala; Aishitech completa una ronda de financiación B+ de 100 millones de yuanes; Baidu lanza el modelo de análisis de documentos PaddleOCR-VL

El modelo de gran tamaño Douba de ByteDance: llamadas diarias superan los 30 billones de tokens, un crecimiento sorprendente!

Volcán Engine lanza cuatro modelos poderosos, la función de síntesis y copia de voz se mejora nuevamente

Noticias de IA: LiblibAI 2.0 está disponible oficialmente; Tongyi Qianwen, Doubao activan la función de memoria; Sora ya está disponible en Google Play

GEO Services