Zonos es un modelo de texto a voz avanzado que admite múltiples idiomas y que puede generar voz natural a partir de indicaciones de texto y embeddings de orador o prefijos de audio. También admite la clonación de voz, pudiendo replicar con precisión la voz de un hablante con solo unos segundos de audio de referencia. El modelo ofrece una salida de voz de alta calidad (44 kHz) y permite un control preciso de la velocidad del habla, la inflexión, la calidad del audio y las emociones (como alegría, miedo, tristeza e ira). Zonos proporciona interfaces de Python y Gradio para facilitar la adopción por parte de los usuarios, y admite la implementación mediante Docker. El factor de tiempo real del modelo en una RTX 4090 es de aproximadamente 2x, lo que lo hace adecuado para aplicaciones que requieren síntesis de voz de alta calidad.