Récemment, la start-up californienne spécialisée en IA, smallest.ai, a lancé son nouveau produit, Lightning, un modèle de synthèse vocale (TTS) capable de générer jusqu'à 10 secondes d'audio en 100 millisecondes. Cette avancée technologique permet aux développeurs du monde entier de créer des applications de robots vocaux hautement réalistes, avec un temps de latence extrêmement court, réduisant ainsi les coûts de mise en œuvre et améliorant l'accessibilité des applications.

image.png

Lightning prend actuellement en charge plusieurs accents anglais et hindi, et l'équipe prévoit d'ajouter rapidement d'autres langues pour répondre à la demande du marché. Le modèle est proposé au prix de seulement 0,02 $ par minute (environ 1,6 roupies indiennes), offrant ainsi aux développeurs de robots vocaux une solution extrêmement rentable. Le coût de fonctionnement des applications peut être contrôlé à moins d'une roupie par minute, ce qui réduit considérablement les frais de création de robots vocaux et élargit l'accessibilité du marché.

Contrairement aux modèles TTS traditionnels qui reposent sur le streaming et les sockets réseau, augmentant ainsi la charge des serveurs et la complexité de l'évolutivité, Lightning utilise une simple API REST, permettant la livraison de l'audio en environ 100 millisecondes. Cela évite la pression sur les serveurs due au streaming continu. Cette rapidité de traitement et cette rentabilité en font une alternative remarquable dans le secteur des robots vocaux.

Les principales caractéristiques de Lightning sont les suivantes :

1. Vitesse et efficacité. Présenté comme le modèle de synthèse vocale le plus rapide au monde, Lightning génère en 100 millisecondes 10 secondes d'audio ultra-réaliste, permettant une synthèse vocale en temps réel et répondant aux besoins de rapidité.

2. Compacité et compatibilité. Avec une demande de mémoire vive inférieure à 1 Go, ce modèle compact peut fonctionner facilement sur la plupart des appareils grand public et périphériques, réduisant ainsi les exigences matérielles.

3. Prise en charge multilingue. Prise en charge de plusieurs langues et accents, actuellement l'anglais et l'hindi avec plusieurs accents, avec l'ajout rapide de nouvelles langues prévu pour répondre aux besoins des utilisateurs mondiaux.

4. Personnalisation élevée. Diffuseur de style, utilisant un diffuseur de style spécial pour adapter le style audio aux besoins de l'utilisateur, rendant la voix générée plus naturelle et expressive.

5. Intégration simplifiée. Intégration API REST, offrant une interface API REST simple permettant aux développeurs d'intégrer rapidement le modèle Lightning à leurs systèmes existants, sans connexion WebSocket complexe.

6. Prix abordable. À partir de 0,04 $ par minute, adapté à toutes les entreprises, avec des tarifs personnalisés pour les entreprises ayant un volume d'utilisation important.

smallest.ai a été fondée par Sudarshan Kamath et Akshat Mandloi, anciens élèves de l'Indian Institute of Technology Guwahati. Kamath explique que la stratégie de prix bas de smallest.ai est due à leur attention portée à la qualité des données et à l'efficacité du modèle. « Notre modèle est beaucoup plus petit que celui de nos concurrents comme ElevenLabs, mais nous avons obtenu une sortie vocale de haute qualité grâce à des données hautement raffinées », explique-t-il.

Les développeurs de robots vocaux ayant eu un accès anticipé à Lightning signalent une réduction de leurs coûts d'exploitation de 8 fois, tout en améliorant la qualité audio. Outre les applications de robots vocaux en temps réel, Lightning peut être utilisé pour la création de livres audio et le doublage de contenu sur les médias sociaux, tels que Instagram et YouTube. Les non-développeurs peuvent également accéder à Lightning via la plateforme Waves Speech et profiter de fonctionnalités telles que le clonage vocal et la conversion d'accents, actuellement en phase de test.

Dans une interaction exclusive avec le magazine « Analyse Inde », Kamath a déclaré : « Lorsque nous avons commencé à construire, nous avons réalisé que les modèles nécessaires aux robots vocaux existants n'étaient pas assez matures pour les langues indiennes. Les modèles existants pour les langues autres que l'anglais ne répondaient tout simplement pas aux exigences de production. »

En juin dernier, smallest.ai a également lancé le modèle AWAAZ, qui permet le clonage vocal à partir de courts extraits audio, à un prix compétitif. Ce modèle vise à répondre aux applications évolutives du marché des langues régionales et à offrir une sécurité et une conformité de niveau entreprise. Interrogé sur sa mission, Kamath a déclaré : « Pourquoi un milliard de personnes n'interagissent-elles pas quotidiennement avec la voix de l'IA, malgré les progrès considérables de la technologie de l'IA vocale ? C'est le problème que nous nous efforçons de résoudre. »

Lien du projet : https://smallest.ai/blog/lightning-fast-text-to-speech

Points clés :

🌟 Le modèle de synthèse vocale Lightning génère de l'audio en 100 millisecondes, prend en charge plusieurs accents anglais et hindi, et sera étendu à d'autres langues à l'avenir.

💰 Avec un coût de seulement 0,02 $ par minute, il réduit considérablement les frais d'exploitation des développeurs de robots vocaux.

📱 Lightning convient non seulement aux robots vocaux, mais aussi à la création de livres audio et au doublage sur les médias sociaux, facilitant son utilisation par les développeurs et les non-développeurs.