¡Bienvenido a la sección 【AI日报】! Aquí encontrará su guía diaria para explorar el mundo de la inteligencia artificial. Todos los días le presentaremos los temas más relevantes del ámbito de la IA, enfocados en desarrolladores, para ayudarle a comprender las tendencias tecnológicas y las innovadoras aplicaciones de los productos de IA.

Conozca los nuevos productos de IA aquí: https://top.aibase.com/

1. ByteDance lanza el gran modelo de razonamiento visual Doubao: precio tan bajo como 0,003 yuanes/mil tokens

En la conferencia Volcano Engine FORCE, el presidente de Volcano Engine, Tan Dai, presentó el gran modelo de comprensión visual Doubao. Este modelo, al combinar información de texto e imágenes, demuestra una excelente capacidad de reconocimiento e inferencia de contenido. La considerable reducción del precio del nuevo modelo infunde mayor confianza a los usuarios empresariales en su transformación inteligente. El uso diario de tokens del gran modelo Doubao ya supera los 4 billones, lo que refleja una fuerte demanda del mercado y un gran potencial de aplicación.

image.png

【Resumen de AiBase:】

🖼️ El nuevo gran modelo de comprensión visual Doubao puede procesar simultáneamente información de texto e imágenes, mejorando la capacidad de reconocimiento e inferencia de contenido.

💰 Desde mayo de este año, el precio del gran modelo Doubao en el sector ha bajado un 99%, facilitando a los usuarios empresariales la aplicación de esta tecnología.

📈 Actualmente, el uso diario de tokens del gran modelo Doubao supera los 4 billones, con un crecimiento superior a 33 veces, lo que demuestra su demanda en el mercado.

2. OpenAI abre la API del modelo o1 completo: reducción del coste del 60%, nueva capacidad de procesamiento visual avanzada

Durante una actividad de transmisión en vivo continua de 12 días laborables, OpenAI lanzó la API del modelo o1 para los desarrolladores en el noveno día y anunció una importante actualización de la API en tiempo real, con soporte para la tecnología WebRTC. A partir de su lanzamiento, OpenAI proporcionará acceso a la API o1 a los desarrolladores con nivel 5 de uso de la API. La API del modelo o1 actualizada, en comparación con la versión de vista previa anterior, ha reducido el coste de procesamiento en un 60% y ha añadido una capacidad de procesamiento visual avanzada. Al mismo tiempo, el coste de procesamiento de audio de GPT-4o también se ha reducido en un 60%, mientras que el precio de la versión mini ha bajado 10 veces.

【Resumen de AiBase:】

🚀 Se lanza la API del modelo o1, con soporte para la tecnología WebRTC, mejorando la capacidad de interacción en tiempo real.

💰 Reducción del coste del 60%, nueva capacidad de procesamiento visual avanzada, mejorando la experiencia del usuario.

📈 Más de 300 millones de usuarios activos semanales, mostrando el rápido crecimiento de la base de usuarios de OpenAI.

3. Ideogram lanza una herramienta de generación de imágenes por lotes: adiós a las operaciones tediosas, generación de imágenes creativas a gran escala con un solo clic

La plataforma de generación de imágenes de IA Ideogram lanzó recientemente una herramienta de generación de imágenes por lotes, con el objetivo de simplificar el proceso de generación de imágenes mediante la carga de archivos de tabla. Los usuarios pueden rellenar previamente las indicaciones y la configuración en un archivo CSV, y Ideogram generará automáticamente las imágenes según esta información. Esta innovación mejora considerablemente la eficiencia de trabajo de los diseñadores profesionales y creativos, reduciendo las tediosas operaciones de entrada individual. Esta función actualmente solo está disponible para los usuarios de Ideogram Pro, mostrando el enorme potencial de la IA en el campo del diseño y la forma de creación inteligente.

image.png

【Resumen de AiBase:】

🚀 La herramienta de generación por lotes permite a los usuarios cargar tablas con indicaciones, simplificando el proceso de generación de imágenes.

🖼️ Los usuarios solo necesitan descargar la plantilla, generar indicaciones y cargar el archivo CSV para generar imágenes automáticamente.

💼 Esta función actualmente solo está disponible para los usuarios de Ideogram Pro, ofreciendo a los diseñadores una experiencia de creación eficiente.

4. Jimeng AI lanza la función de generación de carteles: convierte carteles estáticos en carteles dinámicos con un solo clic

Jimeng AI lanzó una nueva función de generación de carteles en la conferencia Volcano Engine FORCE del 18 de diciembre de 2024. El lanzamiento de esta tecnología marca un importante avance en el campo de la generación de imágenes. Los usuarios solo necesitan introducir una descripción sencilla, y el sistema podrá generar rápidamente carteles creativos, simplificando considerablemente el tiempo y las habilidades necesarias para el diseño tradicional. Además, la nueva función de generación de carteles dinámicos ofrece a los creadores de contenido formas de presentación más ricas, especialmente adecuadas para las redes sociales y la publicidad, lo que puede atraer eficazmente la atención del público y mejorar la eficacia del marketing.

image.png

【Resumen de AiBase:】

🌟 Los usuarios solo necesitan una descripción para generar rápidamente carteles creativos, simplificando el proceso de creación.

🎥 Se añade la función de generación de carteles dinámicos, haciendo que la presentación de las obras sea más vívida, adecuada para las redes sociales y la publicidad.

📈 Jimeng AI considera las necesidades personalizadas de los usuarios, ofreciendo opciones de generación de contenido flexibles para ayudar a la promoción de la marca.

5. Lanzamiento oficial de la versión 1.5 de Kouzi: admite capacidades multimodales, permite experimentar el nuevo modelo Doubao en primera instancia

Kouzi Coze lanzó la nueva versión 1.5 de Kouzi en la conferencia Volcano Engine FORCE, marcando un importante avance en el campo del desarrollo de aplicaciones de IA. Esta versión admite una interfaz de creación GUI, permitiendo a los usuarios crear y publicar fácilmente diversas formas de aplicaciones, reduciendo considerablemente el umbral de desarrollo. Al mismo tiempo, Kouzi 1.5 ha mejorado las capacidades multimodales, admite el último gran modelo Doubao, ofrece abundantes plantillas y soluciones, ayudando a los desarrolladores a mejorar su eficiencia y atrayendo a más de 1 millón de desarrolladores activos.

image.png

【Resumen de AiBase:】

🖥️ Kouzi 1.5 admite una interfaz de creación GUI, permitiendo a los usuarios publicar fácilmente diversas formas de aplicaciones con un solo clic, reduciendo el umbral de desarrollo.

🌐 Las capacidades multimodales se han mejorado significativamente, admitiendo los modelos de comprensión visual, música y generación de imágenes de Doubao, ampliando el alcance de las aplicaciones de IA.

📊 Ofrece una gran cantidad de plantillas de alta calidad, que cubren múltiples escenarios empresariales, mejorando la eficiencia de desarrollo y atrayendo a más de 1 millón de desarrolladores activos.

Enlace de detalles: https://www.coze.cn/docs/guides/vlm

6. ByteDance: el modelo de generación de vídeo Doubao se abrirá oficialmente al público en enero de 2025

En la conferencia Volcano Engine FORCE·Invierno 2024, Volcano Engine mostró la nueva actualización de la familia de grandes modelos Doubao, con un uso diario de tokens superior a 4 billones, mostrando un crecimiento significativo. La conferencia presentó el modelo de comprensión visual y varias actualizaciones de modelos, mejorando la capacidad de procesamiento de tareas generales del modelo Doubao Pro. Además, Volcano Engine lanzó el modelo de generación 3D veOmniverse+Doubao, que admite la creación de AIGC, y anunció que el modelo de generación de vídeo Doubao se abrirá oficialmente al público en enero de 2025, marcando un profundo desarrollo de la tecnología de grandes modelos.

image.png

【Resumen de AiBase:】

🌟 El uso diario de tokens del gran modelo Doubao supera los 4 billones, con un crecimiento superior a 33 veces, mostrando una amplia aplicación.

🛠️ El nuevo modelo de generación 3D veOmniverse+Doubao admite la generación y edición de activos 3D de alta fidelidad, mejorando la capacidad de creación de AIGC.

📅 El modelo de generación de vídeo Doubao se abrirá oficialmente al público en enero de 2025, los usuarios pueden reservar una experiencia.

7. Lanzamiento de la búsqueda AI omnidireccional de Volcano Engine de ByteDance: admite la búsqueda multimodal

En la conferencia Volcano Engine FORCE·Invierno 2024, ByteDance lanzó el servicio de búsqueda AI omnidireccional, con el objetivo de mejorar la precisión de las recomendaciones y la capacidad de descubrimiento de información de las empresas mediante la integración de diversas informaciones y necesidades. Este servicio, basado en el potente motor de búsqueda y recomendación A1, admite la comprensión multimodal, pudiendo procesar rápidamente una gran cantidad de contenido y proporcionar respuestas en tiempo real a los temas candentes, mejorando la experiencia del usuario. Al mismo tiempo, Volcano Engine también lanzó un plan de memoria de grandes modelos para ayudar a los clientes a construir sistemas de memoria eficientes, una importante dirección de desarrollo de los grandes modelos.

image.png

【Resumen de AiBase:】

🌐 La búsqueda AI omnidireccional de Volcano Engine integra servicios de búsqueda contextualizada, información privada de la empresa y preguntas y respuestas en línea, mejorando la precisión de las recomendaciones de información.

⚙️ El motor de búsqueda y recomendación A1 utiliza la tecnología de la familia de grandes modelos Doubao, admite la comprensión multimodal de texto, imágenes, audio y vídeo, siendo aplicable a diversas situaciones.

💡 El plan de memoria de grandes modelos combina el almacenamiento en caché de contexto y la tecnología RAG, ayudando a los clientes a construir sistemas de memoria eficaces y mejorando la capacidad de memoria de los grandes modelos.

8. WeChat lanza la nueva capacidad de "tono de voz del autor"

La función "tono de voz del autor" lanzada por la plataforma WeChat permite a los autores de cuentas públicas doblar sus artículos con voz personalizada, mejorando la interactividad y la personalización de la experiencia de lectura. Los autores deben descargar la aplicación "Asistente de cuenta pública" para grabar la voz, replicando su tono y emociones personales, y pueden aplicarla en su cuenta pública. Esta función se encuentra actualmente en fase de prueba beta y aún no se ha abierto completamente. WeChat anima a los creadores a esperar pacientemente. Esta medida marca un importante avance de WeChat en la mejora de la experiencia del usuario y la satisfacción de las necesidades de los creadores, y se espera que enriquezca las formas de expresión del contenido de las cuentas públicas.

微信截图_20241218142646.png

【Resumen de AiBase:】

🎧 Los autores pueden doblar sus artículos con voz personalizada, mejorando la experiencia interactiva.

📱 Es necesario descargar la aplicación "Asistente de cuenta pública" para grabar la voz y replicar el estilo personal.

🔄 La función se encuentra actualmente en fase de prueba beta y aún no se ha abierto completamente.

9. NVIDIA lanza un superordenador de IA generativa: solo 249 dólares, rendimiento mejorado en un 1,7 veces

El Jetson Orin Nano Super de NVIDIA es un superordenador de inteligencia artificial generativa dirigido a desarrolladores, con un precio de 249 dólares y un rendimiento significativamente mejorado, adecuado para diversas aplicaciones de IA. Este dispositivo ha mejorado el rendimiento de la IA generativa en un 1,7 veces, y también ha mejorado significativamente el ancho de banda de memoria y la capacidad de cálculo. Jensen Huang destacó que este dispositivo ofrece un rendimiento de cálculo excelente a los desarrolladores con un coste menor, mostrando un amplio potencial de aplicación en áreas como ciudades inteligentes, agricultura y desarrollo de robótica, marcando un paso importante en la popularización y aplicación de la tecnología de IA.

image.png

【Resumen de AiBase:】

🚀 Mejora del rendimiento: el rendimiento de IA generativa del Jetson Orin Nano Super ha mejorado en un 1,7 veces, y el ancho de banda de memoria ha aumentado un 50%.

💰 Precio asequible: este dispositivo tiene un precio de 249 dólares, adecuado para el uso de los desarrolladores, reduciendo el umbral de la tecnología de IA.

🌍 Amplia aplicación: admite múltiples escenarios de consumo de energía, adecuado para múltiples campos como ciudades inteligentes, agricultura y robótica.

10. OpenAI declara: no hay planes para lanzar la API de Sora por el momento, la demanda de generación de vídeo supera las expectativas

OpenAI anunció recientemente que no hay planes para lanzar la API de su modelo de generación de vídeo Sora por el momento, debido a que la demanda de los usuarios supera con creces las expectativas. Sora puede generar vídeos realistas a partir de texto o imágenes, pero debido al aumento repentino de solicitudes de usuarios, OpenAI ha tenido que suspender el registro de nuevos usuarios. El CEO Sam Altman se disculpó por ello y destacó que resolver este problema requiere tiempo. Al mismo tiempo, competidores como Google y AWS ya han lanzado sus propias API de generación de vídeo, y OpenAI se enfrenta a la presión del mercado, por lo que su estrategia futura está siendo muy observada.

image.png

【Resumen de AiBase:】

🌟 OpenAI indica que no hay planes para lanzar la API de Sora por el momento, debido a que la demanda supera las expectativas.

📈 Sora ha cerrado temporalmente el registro debido al aumento repentino de solicitudes de usuarios, y el CEO se disculpó por ello.

🤖 Competidores como Google y AWS ya han lanzado API de generación de vídeo, y OpenAI se enfrenta a la presión.

11. La IA "modifica" la danza de mascotas y se vuelve viral en Internet: lo extraño y lo absurdo se convierten en la clave del tráfico

Recientemente, los vídeos de mascotas bailando generados por IA se han vuelto virales en Douyin, mostrando una combinación perfecta de absurdo y humor. En estos vídeos, los gatos y perros se convierten instantáneamente en bailarines expertos, ofreciendo un fuerte impacto visual y dramatismo. Aunque algunos espectadores se sienten incómodos con esta experiencia visual peculiar, sin duda desafían nuestra percepción tradicional de la imagen de los animales, mostrando las infinitas posibilidades y creatividad de la tecnología de IA.