Zonos est un modèle texte-à-parole avancé, prenant en charge plusieurs langues, capable de générer une parole naturelle à partir d'invites textuelles et d'incorporations de locuteurs ou de préfixes audio. Il prend également en charge le clonage vocal, reproduisant fidèlement la voix d'un locuteur avec seulement quelques secondes d'audio de référence. Le modèle produit une sortie audio de haute qualité (44 kHz) et permet un contrôle précis de la vitesse de parole, des variations de tonalité, de la qualité audio et des émotions (comme la joie, la peur, la tristesse et la colère). Zonos fournit des interfaces Python et Gradio pour une prise en main rapide et prend en charge le déploiement via Docker. Son facteur temps réel sur une RTX 4090 est d'environ 2x, ce qui le rend adapté aux applications nécessitant une synthèse vocale de haute qualité.