¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Cada día le presentaremos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.
Conozca los nuevos productos de IA https://top.aibase.com/
1. Tencent HunYuan lanza 5 modelos 3D de código abierto: generación en 30 segundos, compatible con múltiples plataformas
Tencent HunYuan ha anunciado el lanzamiento de cinco nuevos modelos de generación 3D de código abierto, basados en Hunyuan3D-2.0, con una velocidad de generación más rápida y detalles más ricos. La serie de modelos Turbo utiliza el marco FlashVDM para acelerar la generación, reduciéndola a 30 segundos. El motor de creación de IA 3D mejorado admite la entrada de múltiples vistas, permitiendo a los usuarios generar rápidamente modelos 3D de alta calidad mediante la carga de pocas imágenes, reduciendo así los costes de producción. Los nuevos modelos se aplican ampliamente en UGC, síntesis de materiales de productos y generación de activos de juegos, cumpliendo con los estándares de activos 3D para juegos.
【Resumen de AiBase:】
⚡ La serie de modelos Turbo utiliza el marco FlashVDM para lograr una aceleración de decenas de veces, reduciendo el tiempo de generación a 30 segundos.
🖼️ El modelo Hunyuan3D-2-MV captura mejor los detalles, generando activos 3D que cumplen con las expectativas del usuario.
🛠️ El motor mejorado admite la entrada de múltiples vistas; los usuarios solo necesitan cargar de 2 a 4 imágenes para generar rápidamente modelos 3D de alta calidad.
2. Anthropic lanza una importante actualización del mecanismo de transmisión MCP: adiós a las conexiones largas, bienvenido al HTTP transmisible más flexible
Anthropic ha realizado una importante actualización del Protocolo de Contexto del Modelo (MCP), presentando el método de transmisión HTTP transmisible, que sustituye a la solución tradicional HTTP+SSE. Esta innovación resuelve las limitaciones clave de la transmisión remota MCP, mejorando la flexibilidad y la compatibilidad. El nuevo mecanismo permite una comunicación bidireccional más eficiente entre el cliente y el servidor, admite la ejecución de servidores sin estado, simplifica el proceso de implementación y mejora la escalabilidad del sistema.
【Resumen de AiBase:】
🚀 Se elimina el punto final /sse dedicado; todos los mensajes se transmiten a través del punto final /message unificado, simplificando el proceso de comunicación.
🔄 El servidor puede actualizar dinámicamente las solicitudes HTTP a un flujo SSE, admitiendo una comunicación bidireccional flexible y resolviendo la limitación unidireccional de SSE.
🌐 La compatibilidad de la nueva solución ha mejorado considerablemente, siendo adecuada para diversas infraestructuras de red y admitiendo el modo sin estado, lo que reduce el consumo de recursos.
Enlace de detalles: https://github.com/modelcontextprotocol/specification/pull/206
3. Shengshu Technology Vidu creará la primera serie de anime de ciencia ficción original de IA en el extranjero
Shengshu Technology Co., Ltd. y Aura Productions han llegado a un acuerdo de cooperación estratégica para lanzar la primera serie de anime de ciencia ficción original de IA en el extranjero. Esta cooperación marca la aplicación de la tecnología de IA en la producción de anime, abriendo un nuevo capítulo para la industria del anime. Ambas partes producirán conjuntamente una serie de anime de ciencia ficción de 50 episodios cortos, utilizando la avanzada tecnología de generación de vídeo de Vidu para mejorar la eficiencia y la calidad de la producción, lo que presagia una creación de anime más inteligente y eficiente en el futuro.
【Resumen de AiBase:】
🚀 Se lanzará una serie de anime de ciencia ficción de 50 episodios cortos, que se publicará en las principales plataformas de redes sociales de todo el mundo.
🤖 La función de consistencia multi-agente de Vidu garantiza una integración perfecta entre los personajes y los escenarios, logrando una narración animada de alta calidad.
⏱️ La versión 2.0 de Vidu ha mejorado considerablemente la eficiencia de generación de vídeo, pudiendo generar vídeos de alta calidad en 10 segundos.
4. Google Cloud lanza el modelo de voz de alta definición Chirp 3, que admite 248 voces
Google Cloud ha lanzado el modelo de voz de alta definición Chirp 3 en la sede de DeepMind en Londres, con el objetivo de proporcionar a los desarrolladores una potente herramienta de síntesis de voz. Este modelo admite 248 voces diferentes y 31 idiomas, pudiendo ayudar a los desarrolladores a crear aplicaciones como asistentes de voz inteligentes, audiolibros y doblaje de vídeo. Para garantizar un uso responsable, Google ha limitado el acceso a la función de clonación de voz y ha reiterado su compromiso con la privacidad de los datos.
【Resumen de AiBase:】
🌟 Google Cloud lanza el modelo de voz Chirp 3, que admite 248 voces y 31 idiomas, ayudando a los desarrolladores a construir aplicaciones inteligentes.
🔒 Google limita el acceso a la función de clonación de voz para garantizar la práctica de la IA ética y prevenir el abuso.
💼 Google lanza un plan para mejorar las habilidades de IA en el Reino Unido y proporciona apoyo de infraestructura en la nube a las empresas emergentes para fomentar la innovación.
Enlace de detalles: https://cloud.google.com/text-to-speech/docs/chirp3-hd
5. xAI de Musk adquiere la empresa emergente de generación de vídeo Hotshot; la competencia en el campo del vídeo de IA se intensifica
La adquisición de la empresa emergente de IA de generación de vídeo Hotshot por parte de xAI, propiedad de Elon Musk, marca una mayor expansión en el campo de la tecnología de IA multimodal. Hotshot, con sus ventajas tecnológicas únicas y su potente capacidad de computación, se dedica a mejorar la capacidad de generación de vídeo.
【Resumen de AiBase:】
🤖 Hotshot se centra en la generación de vídeo con IA, utilizando 6 millones de fragmentos de vídeo para entrenar y mejorar la capacidad del modelo para comprender el contenido del vídeo.
⚙️ Tras la adquisición, Hotshot continuará expandiendo el desarrollo de generadores de vídeo, utilizando la potente capacidad de computación del superordenador Colossus de xAI.
💼 Esta adquisición marca una mayor presencia de Musk en el campo de la tecnología de IA, lo que indica que la tecnología de generación de vídeo con IA experimentará una nueva ola de avances.
6. Roblox lanza Cube3D de código abierto: el primer modelo de IA básico que permite la generación de objetos 3D
Roblox ha lanzado recientemente y ha abierto el código de Cube3D, su primer modelo de IA básico para generar objetos 3D, con el objetivo de mejorar la eficiencia de la creación 3D. Mediante métodos de entrenamiento innovadores, el modelo etiqueta los objetos 3D y puede generar rápidamente formas 3D completas. En el futuro, Cube3D se convertirá en un modelo multimodal que admitirá varios tipos de entrada, incluyendo texto, imágenes y vídeo, mejorando aún más la integración con las herramientas de creación de IA existentes de Roblox.
【Resumen de AiBase:】
🛠️ Cube3D es el primer modelo de IA de generación de objetos 3D de código abierto de Roblox, cuyo objetivo es mejorar la eficiencia de creación de los desarrolladores.
🔍 Mediante métodos de entrenamiento innovadores, el modelo puede etiquetar objetos 3D y predecir la siguiente forma, construyendo rápidamente objetos 3D completos.
🌐 Roblox planea desarrollar Cube3D como un modelo multimodal, que en el futuro admitirá la entrada de texto, imágenes y vídeo, mejorando las funciones de las herramientas de creación.
7. Mejora de la función del asistente de IA Zoom AI Companion
Zoom ha anunciado recientemente una nueva ronda de mejoras en su asistente de IA, Zoom AI Companion, marcando la evolución de esta herramienta para mejorar la experiencia interactiva y la eficiencia del trabajo de los usuarios en las videoconferencias. Las nuevas funciones incluyen Zoom Tasks, que identifica y completa automáticamente las tareas pendientes; un nuevo grabador de voz que transcribe conversaciones fuera de línea; y un asistente de IA personalizado, que se espera que mejore significativamente la productividad y la capacidad de colaboración de los usuarios.
【Resumen de AiBase:】
🌟 La función Zoom Tasks puede identificar automáticamente las tareas pendientes en las reuniones y completar las tareas correspondientes.
🗣️ El nuevo grabador de voz puede transcribir conversaciones fuera de línea y proporcionar notas de reuniones en tiempo real.
📅 La función de asistente de IA personalizado se lanzará en abril, y los usuarios podrán personalizar las funciones según sus necesidades.
8. ¡Memoria ultralarga de 128K! Aparece el último modelo de código abierto de Mistral, Mistral Small 3.1, con parámetros superiores a GPT-4o Mini
Mistral AI ha lanzado el modelo de código abierto Mistral Small 3.1, que, con su diseño de 24 mil millones de parámetros, ofrece un rendimiento comparable al de los productos de Google y OpenAI. Este modelo ha mejorado significativamente en el procesamiento de texto y la comprensión multimodal, admite ventanas de contexto de 128k tokens y alcanza una velocidad de procesamiento de 150 tokens por segundo.
【Resumen de AiBase:】
🌟 Mistral Small 3.1 tiene 24 mil millones de parámetros, con un rendimiento comparable al de productos similares de Google y OpenAI, impulsando la competencia en el mercado de la IA.
📈 Este modelo admite ventanas de contexto de 128k tokens, con una velocidad de procesamiento de hasta 150 tokens por segundo, lo que lo hace adecuado para documentos largos y escenarios de respuesta rápida.
🌍 Mistral adopta una estrategia de código abierto, lanzando la licencia Apache 2.0, haciendo hincapié en la soberanía digital europea y atrayendo a desarrolladores de todo el mundo para participar en la innovación.
Enlace de detalles: https://top.aibase.com/tool/mistral-small-3-1
9. ¿Quién dice que el vídeo solo puede ser de "una sola toma"? ¡La innovadora tecnología LCT de ByteDance permite que la IA filme películas como un director!
La aparición de la tecnología de ajuste de contexto largo (LCT) ha mejorado enormemente la capacidad narrativa de la generación de vídeo con IA, permitiéndole cambiar libremente de plano como un director de cine para construir escenas de historias más coherentes. Mediante la introducción de un mecanismo de atención completo, incrustaciones de posición 3D entrelazadas y una estrategia de ruido asíncrono, LCT resuelve los problemas de coherencia visual y dinámica temporal en la generación de múltiples planos.
【Resumen de AiBase:】
🎥 La tecnología LCT permite a los modelos de generación de vídeo con IA dirigir vídeos narrativos con múltiples planos, mejorando la capacidad narrativa.
🔍 Mediante el mecanismo de atención completo y las incrustaciones de posición 3D entrelazadas, LCT garantiza la coherencia visual y la dinámica temporal.
🚀 LCT admite la extensión autorregresiva de planos, facilitando la creación de vídeos largos y la modificación interactiva.
Enlace de detalles: https://top.aibase.com/tool/zhangshangxiawentiaoyoulct
10. ¡El "contraataque" de 32B parámetros! OLMo 2 32B aparece de repente, desafiando a GPT-3.5 Turbo
OLMo 2 32B es el último modelo de lenguaje grande lanzado por el Instituto de Inteligencia Artificial Allen, que, con sus 32 mil millones de parámetros y su naturaleza de código abierto completo, desafía a muchos modelos propietarios. Mediante un proceso de entrenamiento refinado, OLMo 2 32B ha superado a GPT-3.5 Turbo y GPT-4o mini en varias pruebas de referencia, mostrando un rendimiento excepcional y una mayor eficiencia de entrenamiento.
【Resumen de AiBase:】
🌐 OLMo 2 32B es un modelo de lenguaje completamente de código abierto, que publica todos los datos, el código y el proceso de entrenamiento para promover la cooperación en la investigación mundial.
📈 Este modelo tiene 32 mil millones de parámetros y ha superado a GPT-3.5 Turbo en varias pruebas de referencia, demostrando la potencia de los modelos de código abierto.
⚡ OLMo 2 32B presenta una excelente eficiencia de entrenamiento, utilizando solo un tercio de los recursos informáticos, mostrando un gran potencial para el desarrollo eficiente de la IA.
Enlace de detalles: https://github.com/allenai/OLMo-core