Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas MCP

Google revoluciona la tecnología de voz AI: 2 minutos de conversación generados en 3 segundos, cambiando radicalmente la interacción humano-máquina

AIbase基地

Publicado elNoticias de IA · 6 minutos de lectura · Oct 31, 2024

283

La última tecnología de generación de voz lanzada por Google ha vuelto a superar los estándares de la industria. Esta tecnología innovadora no solo puede generar conversaciones naturales de hasta 2 minutos en tan solo 3 segundos, sino que también garantiza la coherencia y la calidad del sonido entre múltiples hablantes. Esta tecnología ya se está utilizando en varios productos de Google, como Gemini Live y Project Astra, y está cambiando la forma en que las personas interactúan con los asistentes digitales y las herramientas de IA en todo el mundo.

Durante los últimos años, Google se ha centrado en la investigación en el campo de la generación de audio. Han desarrollado modelos capaces de crear voz de alta calidad y natural a partir de diversas entradas, como texto, control del ritmo y sonidos específicos. Recientemente, Google, en colaboración con varios equipos internos, ha lanzado dos funciones importantes: NotebookLM, que permite convertir documentos cargados en conversaciones animadas; e Illuminate, que genera debates formales de IA sobre artículos de investigación, facilitando la comprensión y asimilación de conocimientos especializados.

Estos avances se basan en los logros previos de Google en numerosas investigaciones. Desde el códec de audio neuronal SoundStream, hasta el marco de modelado de lenguaje de audio AudioLM, y SoundStorm, capaz de generar conversaciones de 30 segundos con múltiples participantes, Google continúa innovando en el campo de la generación de voz. El último avance tecnológico utiliza un códec de voz más eficiente que permite comprimir el audio a una baja tasa de bits de 600 bits por segundo, manteniendo al mismo tiempo la calidad de salida.

Para lograr este avance tecnológico, Google desarrolló una arquitectura Transformer específica que procesa de manera eficiente la jerarquía de información. El modelo primero se preentrena con cientos de miles de horas de datos de voz, y luego se ajusta finamente con conjuntos de datos de conversaciones de alta calidad que incluyen características naturales de las conversaciones reales, como las pausas en el habla. Para garantizar el uso responsable de la tecnología, Google también ha integrado la tecnología SynthID, que agrega una marca de agua al contenido de audio generado por IA.

De cara al futuro, Google se centra en mejorar la fluidez y la calidad del sonido del modelo, y en añadir funciones de control más detalladas. Combinado con los modelos de la serie Gemini, esta tecnología tiene el potencial de desempeñar un papel importante en la mejora de la experiencia educativa y la accesibilidad del contenido, abriendo nuevas posibilidades para la tecnología de voz.

La importancia de esta tecnología radica no solo en la mejora de su rendimiento, sino también en que abre un nuevo capítulo en la interacción entre humanos y máquinas. Al transformar innovaciones tecnológicas complejas en una forma de interacción natural e intuitiva, Google está sentando las bases para la próxima generación de experiencias digitales.

Más información: https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

Google Tecnología de generación de voz GeminiLive NotebookLM

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

Vídeos de enseñanza de celebridades de IA: Crear una clase de álgebra con Kanye West sin costo alguno, monetizar fácilmente millones de vistas

Jul 7, 2025

Zhuyuan lanza el robot Nao X2-N: puede cambiar entre forma de rueda y forma de pie

Jul 7, 2025

La industria de seguros se opone a la propuesta estatal de suspender durante diez años la regulación de la inteligencia artificial

Jul 7, 2025

El Google Docs del diseño está a punto de salir al mercado ¿Por qué Figma tiene preocupaciones sobre la IA?

Jul 7, 2025

Descubrimiento sorprendente: el 14% de los artículos de biomedicina parecen escritos por IA. ¡Tu pequeño secreto queda al descubierto!

En los últimos años, la aplicación de la inteligencia artificial (IA) en la redacción académica ha ganado popularidad, especialmente en el campo de la biomedicina. Según un estudio recientemente publicado en la revista Nature, en 2024, entre los 1.5 millones de resúmenes de investigación biomedicina publicados en PubMed, más de 200.000 artículos mostraron características de texto generado por IA. Estas palabras características suelen ser verbos y adjetivos elaborados, que aunque no afectan el contenido principal del artículo, son suficientes para revelar la presencia de un "asistente de IA". El estudio muestra que el porcentaje de uso de la escritura con IA

Jul 7, 2025

Tencent Open Source Hunyuan-A13B: modelo de gran escala con razonamiento dinámico, destaca por ser capaz de pensar

Jul 7, 2025

NVIDIA adquiere a la empresa emergente de IA CentML, un equipo chino de la generación 95 vuelve a crear un éxito

Jul 7, 2025

OpenAI toma un camino distinto y presenta un programa de residencia para investigadores que atraiga a talento emergente en IA

Jul 7, 2025

Asistente de escritorio Glass de inteligencia artificial oculta: código abierto que explota, registro inteligente de los momentos de la vida

Jul 7, 2025

¡El resumen de inteligencia artificial de Google desata controversia! Se presentó una denuncia antimonopolio en la Unión Europea, los editores acusan pérdidas significativas

Recientemente, la Alianza de Editores Independientes presentó una denuncia antimonopolio a la Comisión Europea, acusando directamente a Google por su función de resumen de inteligencia artificial en su motor de búsqueda. Según un reporte de Reuters, la denuncia acusa a Google de "abuso del contenido en línea", lo que ha causado graves pérdidas a los editores, especialmente a los medios de comunicación, incluyendo una disminución en el tráfico, lectores y ingresos. Desde que Google agregó en 2023 resúmenes generados por IA en la parte superior de los resultados de búsqueda, parece que esta función no ha sido tan bien recibida como se esperaba. Aunque Google afirma que estos resúmenes de IA pueden ayudar a los usuarios a comprender mejor...

Jul 7, 2025