¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Productos de IA nuevos ¡Infórmese aquí!:https://top.aibase.com/

1. ¡Para usuarios de pago! Nueva versión de ChatGPT para Windows: invoque al asistente de IA con un simple atajo de teclado

OpenAI ha lanzado una versión preliminar de la aplicación ChatGPT para Windows, ofreciendo a los usuarios de pago una experiencia de asistente de IA más cómoda. Solo necesita presionar Alt + Espacio para invocar a ChatGPT, sin necesidad de abrir la página web cada vez. Actualmente, la aplicación solo está disponible para usuarios de pago, pero se planea ofrecerla a usuarios gratuitos una vez que esté más completa. Si bien la aplicación en versión beta aún no cuenta con todas las funciones, OpenAI se compromete a realizar actualizaciones continuas para mejorar la experiencia del usuario.

image.png

【Resumen de AiBase:】

🌟 La aplicación ChatGPT para Windows solo está disponible para usuarios de pago, admite varios tipos de cuentas de pago.

💡 Presione Alt + Espacio para invocar fácilmente a ChatGPT y conversar, de forma rápida y sencilla.

🔧 La aplicación beta carece de algunas funciones complejas por el momento, pero se actualizará continuamente para mejorar la experiencia.

2. OpenAI lanza el importante GPT-4O-Audio-Preview

El nuevo modelo GPT-4O-Audio-Preview de OpenAI muestra una capacidad asombrosa en el procesamiento de voz. No solo genera respuestas de voz naturales y fluidas, sino que también cuenta con funciones de análisis de emociones e interacción de voz, abriendo nuevas posibilidades en la interacción humano-máquina. Este modelo admite flexiblemente varias combinaciones de modos, y su estrategia de precios refleja la complejidad del procesamiento de audio. Su lanzamiento revolucionará los sectores de atención al cliente, educación, entretenimiento y tecnología de asistencia.

image.png

【Resumen de AiBase:】

🔊 El modelo tiene la capacidad de generar respuestas de voz naturales y fluidas, compatible con aplicaciones de asistentes de voz y atención al cliente virtual.

🎶 Tiene la capacidad de analizar las emociones, el tono y la entonación del audio, adecuado para el campo del cálculo emocional y el análisis de la experiencia del usuario.

🗣 Admite la interacción de voz a voz, sentando las bases para un sistema de interacción de voz integral.

Enlace de detalles:https://platform.openai.com/docs/guides/audio/quickstart

3. Google actualiza NotebookLM, su asistente de notas e investigación con IA

Google anunció una importante actualización de NotebookLM, mejorando su función de resumen de audio para permitir a los usuarios guiar con mayor precisión la generación de contenido de diálogo por parte de la IA. Las actualizaciones incluyen un resumen de audio personalizado y una función de escucha en segundo plano, mejorando la experiencia del usuario. Se ha iniciado un programa piloto de la versión comercial, con miras a un despliegue más amplio.

【Resumen de AiBase:】

🔊 Se actualiza la función de resumen de audio, los usuarios pueden personalizar la guía del contenido del diálogo de IA.

🎙️ Se agrega la función de escucha en segundo plano, los usuarios pueden trabajar y escuchar audio simultáneamente.

💼 Se inicia el programa piloto de la versión comercial, las empresas pueden experimentar las nuevas funciones y obtener soporte con anticipación.

4. Fudan y Baidu unen fuerzas para crear el nuevo modelo de IA Hallo2, ¡capaz de generar videos 4K ultra HD de más de 1 hora de duración!

El modelo de IA Hallo2, desarrollado conjuntamente por la Universidad de Fudan y Baidu, cambiará por completo la situación actual de la generación de animaciones de personajes, revolucionando los campos de la producción cinematográfica, los asistentes virtuales y el desarrollo de juegos. Este modelo combina modelos de difusión latente, técnicas de aumento de datos Patch-drop, técnicas de aumento de ruido gaussiano, técnicas de predicción de código discreto VQGAN y mecanismos de control de indicaciones de texto, mostrando un rendimiento excelente en la generación de animaciones de personajes de alta calidad y secuencias largas.

【Resumen de AiBase:】

⚙️ El modelo Hallo2 combina varias tecnologías innovadoras, incluyendo el aumento de datos Patch-drop, el aumento de ruido gaussiano, la predicción de código discreto VQGAN y el mecanismo de control de indicaciones de texto.

🌟 Hallo2 se ha verificado en varios conjuntos de datos públicos, superando los métodos existentes y mostrando un excelente rendimiento en la generación de animaciones de personajes de alta calidad y secuencias largas.

🚀 El lanzamiento del modelo Hallo2 marca un nuevo hito en la tecnología de generación de animaciones de personajes con IA, y en el futuro se optimizará aún más la eficiencia y se explorarán más campos de aplicación.

Enlace de detalles:https://fudan-generative-vision.github.io/hallo2/#/

5. El robot Optimus de Tesla evoluciona: navegación autónoma, subir escaleras e interactuar con humanos se convierten en realidad

La última versión del robot Optimus de Tesla muestra nuevas funciones impresionantes, desde la navegación autónoma hasta la interacción humana, demostrando el rápido progreso de la inteligencia artificial y la robótica. Las capacidades de navegación autónoma de Optimus, la autonomía de gestión de energía y la mejora de la capacidad de carga muestran un enorme potencial.

【Resumen de AiBase:】

🤖 Capacidad de navegación autónoma: Optimus puede moverse libremente en entornos complejos, y varios robots pueden trabajar juntos para optimizar la eficiencia de la navegación.

🔋 Autonomía de gestión de energía: Optimus puede ubicar automáticamente las estaciones de carga para cargarse de forma autónoma, mejorando la continuidad y la eficiencia del trabajo.

🏋️‍♂️ Mejora de la capacidad de carga: Optimus puede transportar bandejas de baterías de hasta 11 kg, abriendo nuevas posibilidades de aplicación en la industria y la logística.

6. Gran reorganización de personal en Google: el equipo de Gemini se integra en DeepMind, grandes cambios en la dirección de búsqueda

Google ha realizado recientemente importantes cambios en su liderazgo y estructura de equipos, incluyendo los equipos de K&I y Gemini. El nombramiento de nuevos líderes y la integración de equipos tendrán un impacto significativo en el desarrollo tecnológico de la empresa y la colaboración en proyectos de IA.

【Resumen de AiBase:】

🌟 Nick Fox asume el cargo de nuevo responsable del equipo K&I de Google, y continuará impulsando el desarrollo de productos de búsqueda, publicidad, geografía y comercio.

🔧 Prabhakar Raghavan asume el cargo de director de tecnología de Google, dedicado a proporcionar dirección y apoyo al desarrollo tecnológico de la empresa.

🤖 El equipo de Gemini se integra con Google DeepMind, con el objetivo de fortalecer la colaboración entre el equipo de aplicaciones y el equipo de modelos Gemini.

7. ¡Sube una canción y transfórmala en una pieza de piano al instante! El algoritmo AMT-APC genera interpretaciones de piano de nivel maestro con un solo clic

Recientemente, investigadores de la Facultad de Ciencias de Datos de la Universidad de Musashino desarrollaron el algoritmo AMT-APC, que combina el modelo AMT y la técnica de ajuste fino para generar versiones de interpretación de piano que se acercan a la canción original con mayor precisión. Este algoritmo supera las limitaciones de las tecnologías existentes de generación automática de piezas de piano, mejorando la fidelidad del sonido y la expresividad.

【Resumen de AiBase:】

⭐ El algoritmo AMT-APC aprovecha las ventajas del modelo AMT, y mediante el ajuste fino genera versiones de interpretación de piano más cercanas a la canción original.

🎵 Las estrategias principales incluyen el preentrenamiento y el ajuste fino, lo que permite que el modelo AMT procese fragmentos de música más largos y genere interpretaciones de piano que se ajusten al estilo de la canción original.

🎹 Se introduce el concepto de vector de estilo, aprendiendo diferentes estilos de interpretación, mejorando la expresividad y la fidelidad del sonido de la pieza de piano generada.

Enlace de detalles:https://misya11p.github.io/amt-apc/

8. Nuevas funciones de IA para Siri de Apple: integración de ChatGPT y generación de imágenes

Apple está trabajando para agregar nuevas funciones de Apple Intelligence a iOS 18, iPadOS 18 y macOS 15, incluyendo la integración de ChatGPT y la generación de imágenes. ChatGPT proporcionará a Siri capacidades más avanzadas de generación de texto e imágenes, mientras que Visual Intelligence ofrecerá a los usuarios del iPhone 16 una función de botón de control de la cámara. Se espera que iOS 18.1, iPadOS 18.1 y macOS Sequoia 15.1 se lancen el 28 de octubre, y las versiones beta de iOS 18.2, iPadOS 18.2 y macOS Sequoia 15.2 también se lanzarán pronto.

image.png

【Resumen de AiBase:】

🔍 Siri integrará ChatGPT, proporcionando capacidades más avanzadas de generación de texto e imágenes.

📸 El iPhone 16 obtendrá la función Visual Intelligence, proporcionando información sobre los objetos circundantes a través de los botones de control de la cámara.

🚀 iOS 18.2 admitirá la generación de imágenes Image Playground, Genmoji e Image Wand.

9. ¡Solo mil millones de parámetros! El modelo de generación de imágenes de IA Meissonic

Meissonic es un modelo de IA de código abierto que puede generar imágenes de alta calidad con solo mil millones de parámetros. Emplea un método de entrenamiento de optimización iterativa en paralelo, lo que lo hace hasta 99% más rápido que los modelos tradicionales en la generación de imágenes. A pesar de su pequeño número de parámetros, Meissonic supera a modelos más grandes en varias pruebas y puede realizar funciones de reparación y ampliación de imágenes sin entrenamiento.

image.png

【Resumen de AiBase:】

🌟 El diseño compacto de Meissonic es adecuado para PC de juegos comunes y futuros dispositivos móviles.

⚡ Con el método de entrenamiento de optimización iterativa en paralelo, Meissonic es hasta un 99% más rápido que los modelos tradicionales en la generación de imágenes.

🏆 A pesar de su pequeño número de parámetros, Meissonic supera a modelos más grandes en varias pruebas y puede realizar funciones de reparación y ampliación de imágenes sin entrenamiento.

Enlace de detalles:https://huggingface.co/spaces/MeissonFlow/meissonic

10. Perplexity lanza una función de búsqueda de conocimiento interno, permitiendo a las empresas consultar datos internos y externos simultáneamente

Perplexity ha lanzado una nueva función, "Búsqueda de conocimiento interno", destinada a mejorar la eficiencia del trabajo empresarial y facilitar el acceso a la información necesaria para los usuarios. Los usuarios pueden cargar archivos seleccionados para evitar que la información de bajo valor interfiera con la búsqueda, mejorando así la eficiencia. La nueva función "Espacio" permite compartir archivos en equipo y personalizar asistentes de IA.

image.png

【Resumen de AiBase:】

📁 Los usuarios solo pueden cargar archivos seleccionados, evitando que la información de bajo valor interfiera con la búsqueda y mejorando la eficiencia.

🔍 Perplexity lanza la función "Búsqueda de conocimiento interno", que permite a los usuarios consultar datos internos y externos simultáneamente.

🤝 Se agrega la función "Espacio", que permite compartir archivos en equipo y personalizar asistentes de IA.

11. Pony.ai, empresa de conducción autónoma, planea una OPI en Estados Unidos con una valoración superior a los 8500 millones de dólares

Pony.ai planea una OPI en Estados Unidos con una valoración superior a los 8500 millones de dólares. Fundada en 2016, la empresa se centra en soluciones de conducción autónoma y ha completado 9 rondas de financiación por más de 1000 millones de dólares. Sus ingresos provienen principalmente del negocio de Robotaxi, con un crecimiento interanual del 86% en el primer semestre de 2024.

【Resumen de AiBase:】

🌍 Pony.ai planea una OPI en Estados Unidos, con el código bursátil "PONY", con una valoración superior a los 8500 millones de dólares.

💰 Fundada en 2016, la empresa ha completado 9 rondas de financiación por más de 1000 millones de dólares, alcanzando una valoración de 8500 millones de dólares.

🚖 El negocio de Robotaxi es su principal fuente de ingresos, con un crecimiento interanual del 86% en el primer semestre de 2024.