Boletín diario de IA: ¡Razonamiento mejorado! Se lanza el nuevo modelo o1 de OpenAI; Midjourney 7.0 genera 8 imágenes a la vez; Se lanza el modelo de voz de código abierto Fish Speech 1.4

站长之家

Publicado elNoticias de IA · 20 minutos de lectura · Sep 13, 2024

¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del campo de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Productos de IA nuevos Haga clic para obtener más información:https://top.aibase.com/

1. OpenAI lanza la nueva serie de modelos OpenAI o1

OpenAI ha lanzado la nueva serie de modelos OpenAI o1. Este nuevo modelo muestra un rendimiento superior en capacidad de razonamiento, ofreciendo una mayor capacidad para resolver problemas complejos. Los usuarios deben ajustar la forma de las indicaciones para adaptarse al funcionamiento del modelo o1. El diseño de las indicaciones ha experimentado un cambio significativo: los usuarios deben proporcionar indicaciones sencillas y directas, evitando las indicaciones de cadena de pensamiento. Se deben utilizar separadores para delimitar las partes que el modelo debe analizar, y se debe limitar el contexto adicional para evitar respuestas complejas.

【Resumen de AiBase:】
🤖 El modelo OpenAI o1 necesita indicaciones sencillas y directas, no instrucciones complejas.
🧠 Evite las indicaciones de cadena de pensamiento, ya que el modelo o1 ya tiene capacidad de razonamiento interno.
📑 Utilice separadores para delimitar las partes que el modelo debe analizar, y limite el contexto adicional para evitar respuestas complejas.
Enlace de detalles:https://openai.com/index/introducing-openai-o1-preview/

2. El chat de voz de Google Gemini Live se abre gratuitamente a los usuarios de Android, ¡para chatear con IA en cualquier momento y lugar!

Google ha anunciado que el modo de chat de voz Gemini Live ahora está disponible gratuitamente para todos los usuarios de Android. Esto significa que cualquiera puede disfrutar de la diversión de un diálogo inteligente con IA. Los usuarios pueden hacer preguntas con la voz, e incluso interrumpir durante la respuesta, lo que proporciona una experiencia de interacción de voz fluida. Gemini Live ofrece a los usuarios una nueva forma de interacción, pudiendo conversar con la IA en cualquier momento, ya sea en casa o fuera.

【Resumen de AiBase:】
🌟 ¡La función de chat de voz Gemini Live ahora está disponible gratuitamente para todos los usuarios de Android!
🗣️ Los usuarios pueden hacer preguntas directamente con la voz, e incluso interrumpir durante la respuesta.
🌍 Actualmente solo admite inglés; en el futuro se lanzará en iOS y admitirá más idiomas.

3. La versión 7.0 de Midjourney podría lanzarse en 2 meses: generación de 8 imágenes a la vez, sistema 3D en desarrollo

David Holz, fundador de Midjourney, compartió en Discord el progreso de los últimos proyectos de la empresa, destacando la innovación tecnológica para competir en el campo de la generación de imágenes de IA. La empresa ha retrasado el lanzamiento de la versión 7.0, pero con más funciones. El enfoque está en mejorar la accesibilidad tecnológica y el valor de uso profesional de las herramientas. Se planea lanzar la generación de varias imágenes, un editor de imágenes, un sistema 3D, funciones personalizadas y generación de vídeo. La empresa ha optado por un camino de desarrollo sólido, centrándose en mejorar la experiencia del usuario.

【Resumen de AiBase:】
🚀 La versión 7.0 se retrasa, pero con más funciones, centrándose en mejorar la accesibilidad tecnológica y el valor de uso profesional de las herramientas.
🎨 Las nuevas funciones incluyen la generación de varias imágenes, un editor de imágenes, un sistema 3D, funciones personalizadas y generación de vídeo, mejorando la experiencia del usuario.
💡 Midjourney opta por un camino de desarrollo sólido, centrándose en funciones prácticas y experiencia del usuario para mantener su ventaja competitiva.
Enlace de detalles:https://top.aibase.com/tool/midjourneywangyeban

4. Yuanxiang lanza el gran modelo abierto MoE XVERSE-MoE-A36B

Como el mayor modelo abierto de Mixture of Experts (MoE) de China, el lanzamiento de XVERSE-MoE-A36B marca un gran avance en el campo de la IA en China, elevando la tecnología de código abierto nacional a un nivel líder internacional. El rendimiento y la eficiencia de este modelo han reducido el tiempo de entrenamiento, mejorado el rendimiento de la inferencia y reducido los costes de las aplicaciones de IA, ofreciendo más opciones a las pequeñas y medianas empresas, investigadores y desarrolladores.

【Resumen de AiBase:】
🚀 XVERSE-MoE-A36B tiene 255 000 millones de parámetros totales y 36 000 millones de parámetros activados, con un rendimiento comparable al de los grandes modelos con más de 100 000 millones de parámetros, lo que supone un salto de rendimiento internivel.
💡 La arquitectura MoE, al combinar varios modelos expertos en campos específicos, supera las limitaciones de las leyes de escalado tradicionales, maximizando el rendimiento del modelo y reduciendo los costes de computación.
📈 El MoE de Yuanxiang supera a varios modelos similares en evaluaciones autorizadas, incluidos el modelo MoE nacional Skywork-MoE y el modelo MoE líder Mixtral-8x22B.
Enlace de detalles:https://huggingface.co/xverse/XVERSE-MoE-A36B

5. Lanzamiento de Fish Speech 1.4: el modelo TTS de código abierto logra un gran avance en varios idiomas

El lanzamiento de la versión 1.4 de Fish Speech marca un gran avance en el soporte multilingüe y el rendimiento de este modelo de texto a voz (TTS) de código abierto. La actualización muestra una gran capacidad tecnológica y amplias perspectivas de aplicación.

【Resumen de AiBase:】
🌐 Soporte multilingüe mejorado significativamente: el volumen de datos de entrenamiento se ha duplicado a 700 000 horas, admite 8 idiomas principales y amplía el ámbito de aplicación.
⚡ Rendimiento y funciones mejorados integralmente: velocidad ultrarrápida y baja latencia, función de clonación de voz instantánea, opciones de implementación flexibles y servicios de API.
🚀 Amplias perspectivas de aplicación: aprendizaje de idiomas en el ámbito educativo, clonación de voz instantánea en la industria del entretenimiento, herramientas de asistencia para personas con discapacidad visual, atención al cliente inteligente e intercambio intercultural.
Enlace de detalles:https://fish.audio/zh-CN/auth/

6. ¡Adiós a las alucinaciones! Google lanza el nuevo modelo DataGemma, con una precisión de datos estadísticos que aumenta un 58 %

Google ha lanzado el nuevo modelo de IA de código abierto DataGemma, cuyo objetivo es resolver el problema de las "alucinaciones" que suelen producirse en los grandes modelos de lenguaje al procesar datos estadísticos, lo que marca un avance importante de Google en el campo de la IA. DataGemma utiliza la plataforma de intercambio de datos de Google para mejorar significativamente la precisión de las respuestas del modelo a preguntas estadísticas. Las pruebas preliminares muestran una mejora significativa en la precisión de las consultas estadísticas de DataGemma.

【Resumen de AiBase:】
🌟 El modelo DataGemma tiene como objetivo reducir los errores de la IA en las consultas estadísticas y mejorar la precisión.
📊 DataGemma utiliza los datos de la plataforma Data Commons para mejorar la precisión de las respuestas del modelo.
🔍 DataGemma muestra una mejora significativa en la precisión de las consultas estadísticas en las pruebas preliminares.
Enlace de detalles:https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

7. Jina AI lanza el pequeño modelo de lenguaje Reader-LM

El pequeño modelo de lenguaje Reader-LM lanzado por Jina AI facilita la conversión de contenido HTML original en un formato Markdown limpio y ordenado, eliminando el engorroso procesamiento de datos web. Este modelo es rápido y eficiente, elimina automáticamente el contenido desordenado y muestra un rendimiento y una precisión excelentes.

【Resumen de AiBase:】
✨ Reader-LM puede convertir rápidamente y eficientemente el contenido web en Markdown sin necesidad de reglas complejas o expresiones regulares.
🔍 Ofrece dos modelos de parámetros, optimizando la tarea de conversión de HTML a Markdown, con un rendimiento superior al de los modelos grandes.
💡 Cuenta con una potente capacidad de procesamiento de contextos largos, pudiendo funcionar de manera eficiente incluso en entornos con recursos limitados.
Enlace de detalles:https://jina.ai/news/reader-lm-small-language-models-for-cleaning-and-converting-html-to-markdown/

8. ¡Valorado en 20 millones de dólares! La herramienta de IA Shopsense AI permite comprar el mismo estilo de las estrellas con solo una foto

En los MTV Video Music Awards (VMAs), los espectadores pudieron comprar al instante ropa similar a la de las estrellas gracias a la tecnología Shopsense AI, mostrando las posibilidades de la experiencia de compra del futuro. Aunque la tecnología aún necesita mejorar su precisión, Shopsense está mejorando continuamente para competir con otras empresas de medios. Su modelo de negocio es diverso, obteniendo ingresos mediante pago por clic y participación en las ventas, con un gran potencial de mercado.

【Resumen de AiBase:】
🌟 Los espectadores pueden obtener recomendaciones de productos similares a los estilos de las estrellas subiendo fotos, incluyendo opciones de alta gama y económicas.
🛍️ Shopsense AI planea expandirse a otras áreas de recomendación de productos, como viajes y deportes, para lograr una conexión perfecta entre contenido y compras.
📈 Shopsense AI colabora con Paramount para ofrecer a los espectadores la posibilidad de comprar al instante ropa similar a la de las estrellas.

9. ¡Una batalla de marcas registradas! Google es demandado por infracción de derechos de autor por el uso del nombre "Gemini"

Recientemente, Google ha sido demandada por la empresa Gemini Data por su nuevo servicio de IA "Gemini", acusándola de infracción de derechos de autor. Esta disputa pone de manifiesto los retos y riesgos legales que enfrentan las grandes empresas tecnológicas en el uso de marcas registradas, y advierte a las empresas de la necesidad de tener cuidado al nombrar nuevos productos o servicios.

【Resumen de AiBase:】
🌟 Google ha sido demandada por Gemini Data por el uso de la marca registrada "Gemini", acusándola de infracción de derechos de autor.
🔍 Google ha visto rechazada su solicitud de marca registrada, ya que el nombre es similar a otras marcas registradas.
🤖 El chatbot Gemini de Google admite estar infringiendo la marca registrada, lo que refleja la disputa legal entre ambas partes.

10. La empresa de inversión estatal de los Emiratos Árabes Unidos, MGX, considera invertir miles de millones de dólares en OpenAI

La empresa de inversión estatal de los Emiratos Árabes Unidos, MGX, está considerando invertir miles de millones de dólares en OpenAI, lo que impulsará aún más el plan de financiación de OpenAI y mostrará el sólido rendimiento comercial de OpenAI. Al mismo tiempo, la creación de MGX tiene como objetivo acelerar el desarrollo de la inteligencia artificial y las tecnologías avanzadas, consolidando el liderazgo de los Emiratos Árabes Unidos en el campo de la tecnología mundial.

【Resumen de AiBase:】
💰 MGX está considerando invertir miles de millones de dólares en OpenAI, impulsando el plan de financiación de OpenAI.
🤖 OpenAI tiene unos ingresos recurrentes anuales de 4000 millones de dólares, mostrando un sólido rendimiento comercial.
🌍 MGX fue fundada conjuntamente por Mubadala y G42, y se centra en el desarrollo de la inteligencia artificial y las tecnologías avanzadas.

11. ¡Increíblemente potente! Alguien probó el OpenAI o1 para resolver problemas de matemáticas de fin de curso de secundaria, ¡y los resolvió todos correctamente!

Este artículo presenta los sorprendentes resultados obtenidos por un usuario de Reddit que utilizó el último modelo de OpenAI, OpenAI o1, para resolver problemas de matemáticas de secundaria. Con curiosidad por la capacidad de la inteligencia artificial, descubrió a través de una prueba que OpenAI o1 resolvió con precisión los problemas de matemáticas de la escuela secundaria china en poco tiempo, lo que provocó la atención y el debate de los usuarios. Los resultados muestran la gran capacidad de la IA para tratar problemas matemáticos complejos, lo que ha suscitado un debate sobre las perspectivas futuras de la aplicación de la IA.

【Resumen de AiBase:】
🤖 Increíble capacidad de la IA: OpenAI o1 resolvió con precisión los problemas de matemáticas de fin de curso de secundaria en poco tiempo, todos correctos.
💡 El progreso tecnológico suscita reflexiones: los usuarios plantean dudas sobre el futuro desarrollo de la IA y debaten su influencia en el ámbito educativo.
🌐 Asistencia para el aprendizaje inteligente: la IA tiene un enorme potencial en el ámbito educativo, ofreciendo asistencia para el aprendizaje inteligente a los estudiantes.

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

La empresa noruega de robots 1X presenta su primer robot humanoide para uso doméstico, Neo, con un precio de 20.000 dólares y una tarifa de suscripción mensual de 499 dólares. Este robot de 1,68 metros está diseñado especialmente para tareas como lavar platos y ordenar, y utiliza un modelo de cooperación entre IA y operadores humanos a distancia, necesitando soporte externo para completar tareas complejas.

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

Amazon AWS anunció que invertirá otros 5.000 millones de dólares en Corea durante los próximos seis años para ampliar los centros de datos de inteligencia artificial, y colaborará con el Grupo SK para construir una instalación grande en Ulsan. La inversión total en Corea alcanzará los 12.600 millones de dólares, lo que demuestra su importancia estratégica para el mercado coreano.

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

La rápida evolución de las tecnologías de IA está transformando la industria de los videojuegos. La IA generativa trae nuevas oportunidades y desafíos, y empresas como Microsoft y Amazon están reorientando sus recursos hacia aplicaciones de IA. Los desarrolladores de videojuegos tienen opiniones diferentes sobre esto, y el futuro de la industria sigue siendo incierto.

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Qualcomm presenta dos chips de inferencia de IA en la nube, el AI200 y el AI250, que planea comercializar en 2026 y 2027, lo que marca su transición hacia una infraestructura integral de IA. Esta noticia impulso un aumento del 20% en el precio de las acciones en un solo día, el mayor aumento desde 2019. A diferencia de la estrategia completa de NVIDIA, Qualcomm se centra en el mercado de la inferencia de modelos grandes, destacando su ventaja en eficiencia energética y costo.

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

El 29 de octubre, Magic Leap y Google anunciaron una nueva colaboración en la conferencia Iniciativa de Inversión Futura de Riad, trabajando juntos para desarrollar un prototipo de gafas AR y promover avances en la tecnología de realidad aumentada. Ross Rosenburg, líder de Magic Leap, declaró que la empresa se está transformando de pionera en realidad aumentada a socio de ecosistema, aprovechando su experiencia en innovaciones ópticas y de visualización para alcanzar una nueva etapa de su visión.

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

En la conferencia GTC de 2025, NVIDIA presentó el "Diseño Omniverse DSX", un esquema diseñado específicamente para centros de datos de IA de nivel giga, conocido como "fábrica de IA". Este esquema está basado en el marco Omniverse y admite diferentes escalas, desde 100 millones hasta 1.000 millones de vatios, con el objetivo de entrenar y ejecutar eficientemente modelos de IA grandes, satisfaciendo la creciente demanda de cálculo de IA, siendo un avance importante en la infraestructura de inteligencia artificial.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

Website AI Friendliness Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Boletín diario de IA: ¡Razonamiento mejorado! Se lanza el nuevo modelo o1 de OpenAI; Midjourney 7.0 genera 8 imágenes a la vez; Se lanza el modelo de voz de código abierto Fish Speech 1.4

站长之家

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento