¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentamos los temas más relevantes del ámbito de la IA, con enfoque en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de productos de IA.

Productos de IA nuevos ¡Infórmese aquí!:https://top.aibase.com/

1、 ¡Desafío a Google! OpenAI lanza el motor de búsqueda SearchGPT; fase inicial con solo 10.000 usuarios invitados para pruebas

OpenAI ha lanzado SearchGPT, un motor de búsqueda impulsado por inteligencia artificial. A diferencia de los motores de búsqueda tradicionales, este organiza y resume los resultados de búsqueda. Actualmente se encuentra en fase prototipo, con el apoyo de GPT-4, y está abierto a 10.000 usuarios para pruebas. OpenAI colabora con terceros para construir los resultados de búsqueda y planea integrar la función de búsqueda en ChatGPT.

【Resumen de AiBase:】

🔍 SearchGPT es un motor de búsqueda impulsado por IA que organiza y resume los resultados de búsqueda.

🚀 Actualmente se encuentra en fase prototipo, con el apoyo de GPT-4, y está abierto a 10.000 usuarios para pruebas.

💡 OpenAI planea integrar la función de búsqueda directamente en ChatGPT, compitiendo con Google, y se centra en la colaboración en el uso de contenido y la claridad en la propiedad de la información.

Enlace de detalles:https://chatgpt.com/search

2、智谱AI lanza el producto de generación de vídeo con IA, Qingying

智谱AI ha lanzado Qingying (Ying), un gran modelo de IA capaz de generar vídeos a partir de cualquier texto. Los usuarios solo necesitan introducir un texto y seleccionar un estilo para generar un vídeo de alta precisión. Qingying ya está disponible en la aplicación Qingyan, admite la generación de vídeo a partir de texto e imágenes, y también se ha lanzado el miniaplicación "Fotos en movimiento". El CEO, Zhang Peng, mencionó que el modelo de generación de vídeo CogVideoX, que forma la base de Qingying, integra tres dimensiones: texto, tiempo y espacio, lo que mejora la velocidad de inferencia. Los usuarios pueden experimentar Qingying a través de la aplicación de escritorio/móvil de Zhihu Qingyan y convertir su inspiración en creaciones artísticas de vídeo.

image.png

【Resumen de AiBase:】

🎥 Qingying es un gran modelo de IA lanzado por Zhihu AI, capaz de generar vídeos de alta precisión, admitiendo la generación de vídeo a partir de texto e imágenes.

💡 Qingying se basa en la nueva arquitectura de modelo DiT, que integra contenido de texto y vídeo, mejorando la capacidad de cumplimiento de instrucciones y la coherencia del contenido.

🚀 CogVideoX es el modelo de generación de vídeo que forma la base de Qingying, integrando las tres dimensiones de texto, tiempo y espacio, lo que mejora la velocidad de inferencia. En el futuro, se lanzarán funciones de generación de vídeo con mayor resolución y duración.

Enlace de detalles:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu

3、 ByteDance lanza el modelo Doubao para la generación de imágenes a partir de imágenes; el uso diario de tokens del modelo Doubao supera los 500.000 millones

Volcano Engine celebró la Exposición de Innovación de IA 2024 en Chengdu y anunció que el uso diario de tokens del modelo Doubao supera los 500.000 millones, con un aumento del 22 veces en el uso diario por parte de los clientes. El vicepresidente Zhang Xin afirmó que Volcano Engine se está desarrollando en las direcciones de inteligencia, sectorialización y regionalización, ayudando a las empresas a lograr la innovación empresarial. Las últimas capacidades lanzadas del modelo Doubao incluyen mejoras en imágenes visuales, síntesis de voz y reproducción de sonido.

【Resumen de AiBase:】

🚀 El uso diario de tokens del modelo Doubao supera los 500.000 millones, con un aumento del 22 veces en el uso diario por parte de los clientes.

🔍 El modelo Doubao para la generación de imágenes a partir de imágenes y el modelo Doubao para la generación de imágenes a partir de texto destacan por conservar las características de la imagen original y mejorar la calidad de la imagen.

🔊 El modelo Doubao de síntesis de voz y el modelo Doubao de reproducción de sonido han mejorado en la expresión de emociones y la reproducción de las características de la voz del hablante.

4、 Se revela que el generador de vídeo con IA Runway utiliza contenido de YouTube con derechos de autor para su entrenamiento

Este artículo revela el escándalo del uso de contenido con derechos de autor por parte del generador de vídeo Gen-3Alpha desarrollado por la empresa Runway, lo que ha provocado una controversia sobre los derechos de autor. Las empresas de IA violan con frecuencia la ley de derechos de autor, y los legisladores están reconsiderando las leyes de derechos de autor para adaptarse a los nuevos desafíos tecnológicos.

【Resumen de AiBase:】

📊 Se revela que el generador de vídeo Runway utiliza contenido con derechos de autor, lo que provoca una controversia sobre los derechos de autor.

🛡️ Las empresas de IA violan con frecuencia la ley de derechos de autor, y los conflictos de derechos de autor se convierten en un obstáculo para el desarrollo de la IA.

📜 Los legisladores reconsideran las leyes de derechos de autor; las leyes y las políticas de uso de derechos de autor se actualizan constantemente.

5、 ¡Adiós a la sequía de títulos! Bilibili lanza una función de títulos de anuncios recomendados con AIGC

En esta era donde la creatividad es clave, la función de títulos de anuncios recomendados con AIGC lanzada por Bilibili ha inyectado nueva vitalidad a la creación de anuncios. Con la generación de 10 títulos exitosos mediante IA, el proceso de creación se vuelve más simple y eficiente, aumentando las posibilidades de mejorar la efectividad de los anuncios.

【Resumen de AiBase:】

🔑 La creatividad es clave, y el título es fundamental. La función de títulos de anuncios recomendados con AIGC hace que la creación sea más simple y eficiente.

🤖 Detrás del maestro de la IA, se encuentra un entrenamiento basado en una gran cantidad de datos. Se generan títulos de estilos variados y atractivos.

🚀 Se optimiza continuamente al maestro de la IA para que los títulos sean más precisos y específicos. Se amplía audazmente la libertad de creación de anuncios.

6、 ¡Llega Wenwen Xiaoyuzhou, el motor de búsqueda de IA de Jike!

La aplicación Jike ha lanzado una función de búsqueda de IA basada en Xiaoyuzhou: Wenwen Xiaoyuzhou, que se centra en la exploración profunda del contenido de audio, ofreciendo debates profundos y perspectivas únicas. Su característica distintiva es la combinación de una interfaz con una paleta de colores retro y una función de recomendación personalizada, lo que hace que los resultados de búsqueda sean más ricos, diversos y se ajusten a las necesidades de los usuarios.

image.png

【Resumen de AiBase:】

🔍 Wenwen Xiaoyuzhou es una función de búsqueda de IA basada en Xiaoyuzhou, centrada en la exploración del contenido de audio.

🎧 Ofrece debates profundos y perspectivas únicas, recomendando contenido de audio relacionado.

🎨 Interfaz con paleta de colores retro, función de recomendación personalizada, resultados de búsqueda ricos y diversos, ajustados a las necesidades de los usuarios.

Enlace de detalles:https://top.aibase.com/tool/wenwenxiaoyuzhou

7、 ¡El "agente especial" de IA en el mundo de la traducción! ByteDance lanza el sistema de traducción simultánea de voz de extremo a extremo CLASI

CLASI es un sistema de traducción simultánea de voz de extremo a extremo lanzado por ByteDance que revoluciona la comunicación global. Combina modelos lingüísticos y sistemas de recuperación de información para lograr traducciones precisas y rápidas, con una función de memoria contextual que supera a los traductores humanos. Aunque no es perfecto, su capacidad de respuesta inteligente proporciona un servicio de traducción eficiente. La aparición de CLASI abre nuevas posibilidades para la comunicación entre idiomas, aportando una suave revolución a la forma en que nos comunicamos.

【Resumen de AiBase:】

🌐 CLASI es un sistema de traducción simultánea de voz de extremo a extremo que combina modelos lingüísticos y sistemas de recuperación de información para lograr traducciones precisas y rápidas.

🧠 CLASI cuenta con una función de memoria contextual que permite conectar el contenido anterior para garantizar la coherencia de la traducción, superando a los traductores humanos.

🔍 CLASI, mediante su capacidad de respuesta inteligente, puede inferir el significado y proporcionar una traducción razonable, superando en la capacidad de transmitir información efectiva a los sistemas comerciales y de código abierto.

Enlace de detalles:https://top.aibase.com/tool/clasi

8、 La Universidad de Wuhan, en colaboración con el equipo de inteligencia artificial Jiu Tian de China Mobile, lanza el conjunto de datos de reconocimiento de voz y vídeo VoxBlink2

La Universidad de Wuhan, en colaboración con el equipo de inteligencia artificial Jiu Tian de China Mobile y la Universidad Duke Kunshan, ha lanzado un conjunto de datos de reconocimiento de voz y vídeo de más de 110.000 horas, VoxBlink2, basado en datos de YouTube. Es el conjunto de datos de reconocimiento de voz y vídeo de acceso público más grande que existe. Este conjunto de datos enriquece la biblioteca de recursos de voz de código abierto y permite el entrenamiento de grandes modelos de huellas vocales.

image.png

【Resumen de AiBase:】

🔍 El conjunto de datos supera las 110.000 horas, incluyendo 9.904.382 fragmentos de audio y vídeo de alta calidad, procedentes de 111.284 usuarios de YouTube.

🔬 El conjunto de datos ha sido sometido a un proceso de extracción de datos de varios pasos, incluyendo la preparación de candidatos, la extracción y detección de rostros, el reconocimiento facial y la detección de hablantes activos, con una precisión que alcanza el 92%.

🛠 VoxBlink2 ha lanzado modelos de huellas vocales de diferentes tamaños, incluyendo modelos de convolución 2D basados en ResNet y modelos temporales basados en ECAPA-TDNN, así como el modelo supergrande ResNet293, que ofrece un excelente rendimiento en el conjunto de datos Vox1-O.

Enlace de detalles:https://VoxBlink2.github.io

9、 Importante actualización de Google Gemini: compatibilidad con varios idiomas, mejora del rendimiento y acceso para adolescentes

Google ha anunciado una actualización completa de su chatbot de IA Gemini, incluyendo compatibilidad con varios idiomas, mejora del rendimiento y acceso para adolescentes. Esta actualización mejorará la experiencia del usuario, reducirá los costes operativos, aumentará la transparencia, ampliará las aplicaciones y mostrará la ambición y la determinación de Google en el campo de la IA.

【Resumen de AiBase:】

🌐 Compatibilidad con varios idiomas: Gemini 1.5 Flash admite 40 idiomas, cubriendo 230 países y regiones, mejorando la calidad y la velocidad de respuesta.

🔍 Ventana de contexto ampliada: la ventana de contexto de Gemini se ha ampliado a 32.000 tokens, admitiendo el procesamiento de textos más largos y la función de carga de archivos.

🚀 Aplicaciones más amplias: las funciones de Gemini se ampliarán a la integración con la aplicación Messages, la promoción de aplicaciones móviles y el acceso para adolescentes.

10、 ¡Optimización sencilla! Microsoft lanza una función de ajuste sin servidor para el modelo de lenguaje pequeño Phi-3

Microsoft ha lanzado una función de ajuste sin servidor para el modelo de lenguaje pequeño Phi-3, ofreciendo a los desarrolladores una forma sencilla de ajustar y optimizar el rendimiento del modelo. Esta medida impulsará aún más el desarrollo y la popularización de las aplicaciones de IA.

image.png

【Resumen de AiBase:】

📈 Función de ajuste sin servidor: los desarrolladores pueden ajustar fácilmente el modelo Phi-3 sin necesidad de gestionar servidores, mejorando el rendimiento.

💰 Modelo Phi-3 rentable: ofrece un rendimiento eficiente a bajo coste, adecuado para diversas aplicaciones empresariales.

🤖 Competencia de mercado feroz: la competencia entre Microsoft y otros proveedores de IA como OpenAI se intensifica, impulsando el desarrollo del sector de la IA.

Enlace de detalles:https://azure.microsoft.com/en-us/blog/announcing-phi-3-fine-tuning-new-generative-ai-models-and-other-azure-ai-updates-to-empower-organizations-to-customize-and-scale-ai-applications/

11、 Musk busca la aprobación de la junta directiva de Tesla para invertir 5.000 millones de dólares en xAI

Musk planea invertir 5.000 millones de dólares en la empresa emergente de inteligencia artificial xAI, lo que podría provocar conflictos de intereses en la red de empresas tecnológicas. Tesla se está transformando en una empresa de robótica e inteligencia artificial, y Musk se ha comprometido a crear una flota de taxis robóticos autónomos y robots humanoides. xAI se fundó en julio del año pasado, con una valoración de 18.000 millones de dólares, y Musk está intentando alcanzar a sus competidores OpenAI y Anthropic.

【Resumen de AiBase:】

🚀 Musk planea invertir 5.000 millones de dólares en xAI, lo que podría provocar conflictos de intereses en la red de empresas tecnológicas.

🤖 Tesla se está transformando en una empresa de robótica e inteligencia artificial, y Musk se ha comprometido a crear una flota de taxis robóticos autónomos y robots humanoides.

💰 xAI se fundó en julio del año pasado, con una valoración de 18.000 millones de dólares, y Musk está intentando alcanzar a sus competidores OpenAI y Anthropic.

12、 La geometría de la IA de Google evoluciona a pasos agigantados: en la lucha por la medalla de oro de la IMO, su velocidad de resolución de 19 segundos supera a la de los participantes humanos

Este artículo presenta el asombroso rendimiento del sistema de IA de Google DeepMind en la Olimpiada Internacional de Matemáticas (IMO), obteniendo la medalla de plata por un estrecho margen. La IA ha demostrado una capacidad y velocidad de resolución excepcionales, superando a los participantes humanos, lo que ha suscitado reflexiones sobre las ilimitadas posibilidades de la IA en el campo de las matemáticas.

【Resumen de AiBase:】