Lightning : Modèle de synthèse vocale ultrarapide, génération de 10 secondes d'audio en 100 ms

AIbase基地

Publié leActualités IA · 9 minutes de lecture · Nov 6, 2024

331

Récemment, la start-up californienne spécialisée en IA, smallest.ai, a lancé son nouveau produit, Lightning, un modèle de synthèse vocale (TTS) capable de générer jusqu'à 10 secondes d'audio en 100 millisecondes. Cette avancée technologique permet aux développeurs du monde entier de créer des applications de robots vocaux hautement réalistes, avec un temps de latence extrêmement court, réduisant ainsi les coûts de mise en œuvre et améliorant l'accessibilité des applications.

Lightning prend actuellement en charge plusieurs accents anglais et hindi, et l'équipe prévoit d'ajouter rapidement d'autres langues pour répondre à la demande du marché. Le modèle est proposé au prix de seulement 0,02 $ par minute (environ 1,6 roupies indiennes), offrant ainsi aux développeurs de robots vocaux une solution extrêmement rentable. Le coût de fonctionnement des applications peut être contrôlé à moins d'une roupie par minute, ce qui réduit considérablement les frais de création de robots vocaux et élargit l'accessibilité du marché.

Contrairement aux modèles TTS traditionnels qui reposent sur le streaming et les sockets réseau, augmentant ainsi la charge des serveurs et la complexité de l'évolutivité, Lightning utilise une simple API REST, permettant la livraison de l'audio en environ 100 millisecondes. Cela évite la pression sur les serveurs due au streaming continu. Cette rapidité de traitement et cette rentabilité en font une alternative remarquable dans le secteur des robots vocaux.

Les principales caractéristiques de Lightning sont les suivantes :

1. Vitesse et efficacité. Présenté comme le modèle de synthèse vocale le plus rapide au monde, Lightning génère en 100 millisecondes 10 secondes d'audio ultra-réaliste, permettant une synthèse vocale en temps réel et répondant aux besoins de rapidité.

2. Compacité et compatibilité. Avec une demande de mémoire vive inférieure à 1 Go, ce modèle compact peut fonctionner facilement sur la plupart des appareils grand public et périphériques, réduisant ainsi les exigences matérielles.

3. Prise en charge multilingue. Prise en charge de plusieurs langues et accents, actuellement l'anglais et l'hindi avec plusieurs accents, avec l'ajout rapide de nouvelles langues prévu pour répondre aux besoins des utilisateurs mondiaux.

4. Personnalisation élevée. Diffuseur de style, utilisant un diffuseur de style spécial pour adapter le style audio aux besoins de l'utilisateur, rendant la voix générée plus naturelle et expressive.

5. Intégration simplifiée. Intégration API REST, offrant une interface API REST simple permettant aux développeurs d'intégrer rapidement le modèle Lightning à leurs systèmes existants, sans connexion WebSocket complexe.

6. Prix abordable. À partir de 0,04 $ par minute, adapté à toutes les entreprises, avec des tarifs personnalisés pour les entreprises ayant un volume d'utilisation important.

smallest.ai a été fondée par Sudarshan Kamath et Akshat Mandloi, anciens élèves de l'Indian Institute of Technology Guwahati. Kamath explique que la stratégie de prix bas de smallest.ai est due à leur attention portée à la qualité des données et à l'efficacité du modèle. « Notre modèle est beaucoup plus petit que celui de nos concurrents comme ElevenLabs, mais nous avons obtenu une sortie vocale de haute qualité grâce à des données hautement raffinées », explique-t-il.

Les développeurs de robots vocaux ayant eu un accès anticipé à Lightning signalent une réduction de leurs coûts d'exploitation de 8 fois, tout en améliorant la qualité audio. Outre les applications de robots vocaux en temps réel, Lightning peut être utilisé pour la création de livres audio et le doublage de contenu sur les médias sociaux, tels que Instagram et YouTube. Les non-développeurs peuvent également accéder à Lightning via la plateforme Waves Speech et profiter de fonctionnalités telles que le clonage vocal et la conversion d'accents, actuellement en phase de test.

Dans une interaction exclusive avec le magazine « Analyse Inde », Kamath a déclaré : « Lorsque nous avons commencé à construire, nous avons réalisé que les modèles nécessaires aux robots vocaux existants n'étaient pas assez matures pour les langues indiennes. Les modèles existants pour les langues autres que l'anglais ne répondaient tout simplement pas aux exigences de production. »

En juin dernier, smallest.ai a également lancé le modèle AWAAZ, qui permet le clonage vocal à partir de courts extraits audio, à un prix compétitif. Ce modèle vise à répondre aux applications évolutives du marché des langues régionales et à offrir une sécurité et une conformité de niveau entreprise. Interrogé sur sa mission, Kamath a déclaré : « Pourquoi un milliard de personnes n'interagissent-elles pas quotidiennement avec la voix de l'IA, malgré les progrès considérables de la technologie de l'IA vocale ? C'est le problème que nous nous efforçons de résoudre. »

Lien du projet : https://smallest.ai/blog/lightning-fast-text-to-speech

Points clés :
🌟 Le modèle de synthèse vocale Lightning génère de l'audio en 100 millisecondes, prend en charge plusieurs accents anglais et hindi, et sera étendu à d'autres langues à l'avenir.
💰 Avec un coût de seulement 0,02 $ par minute, il réduit considérablement les frais d'exploitation des développeurs de robots vocaux.
📱 Lightning convient non seulement aux robots vocaux, mais aussi à la création de livres audio et au doublage sur les médias sociaux, facilitant son utilisation par les développeurs et les non-développeurs.

Lancement de Dia, un modèle TTS open source révolutionnaire : prise en charge des émotions, des indices non verbaux et une qualité comparable à une conversation humaine

Nari Labs, une start-up composée de deux personnes, a lancé Dia, un modèle de synthèse vocale (TTS) de 1,6 milliard de paramètres, conçu pour générer des conversations naturelles directement à partir d'invites textuelles. Son co-fondateur, Toby Kim, affirme que Dia surpasse les produits propriétaires de concurrents tels qu'ElevenLabs, ainsi que la fonction de génération de podcasts NotebookLM AI de Google, et pourrait même concurrencer le récent gpt-4o-mini d'OpenAI.

ByteDance lance MegaTTS3 sur Hugging Face : une percée dans la synthèse vocale légère

Pékin – ByteDance a récemment publié son dernier modèle de texte à parole (TTS), MegaTTS3, sur la communauté open source d'intelligence artificielle Hugging Face. Cette publication a rapidement attiré l'attention des chercheurs et développeurs en IA du monde entier, grâce à ses performances révolutionnaires en termes de conception légère et de prise en charge multilingue. D'après les retours de la communauté technique et les informations officielles, MegaTTS3 est salué comme une avancée majeure dans le domaine de la synthèse vocale. Les points forts de MegaTTS3 :

Sesame lance le modèle CSM : l'IA de synthèse vocale personnalisée en temps réel atteint de nouveaux sommets

Le 13 mars, Sesame a lancé son dernier modèle de synthèse vocale, le CSM, suscitant un vif intérêt dans le secteur. Selon la présentation officielle, le CSM adopte une architecture d'apprentissage multimodale de bout en bout basée sur le Transformer, capable de comprendre le contexte et de générer une voix naturelle et expressive, avec un rendu sonore étonnamment réaliste. Ce modèle prend en charge la génération vocale en temps réel, peut traiter les entrées textuelles et audio, et permet aux utilisateurs de contrôler des caractéristiques telles que le ton, l'intonation, le rythme et les émotions en ajustant les paramètres, démontrant ainsi une grande flexibilité. Le CSM est considéré comme une avancée majeure dans la technologie de la synthèse vocale par IA.

Les propositions de Lei Jun pour le Deuxième Congrès National du Peuple 2025 : se concentrer sur les terminaux d'intelligence artificielle et la régulation des applications de substitution et de synthèse vocale de l'IA

Lei Jun souligne que les terminaux d'intelligence artificielle, en tant que plateformes importantes pour la mise en œuvre de la technologie de l'IA, ne cessent d'élargir leur champ d'application, passant des smartphones, des voitures intelligentes et des appareils portables aux maisons intelligentes et aux robots. Cette tendance injecte non seulement une nouvelle vitalité au marché de la consommation, mais fournit également une impulsion essentielle à la modernisation et à l'amélioration intelligente de la chaîne industrielle. Cependant, au stade initial du développement rapide des terminaux d'intelligence artificielle, il est nécessaire de surmonter les goulots d'étranglement technologiques essentiels, de construire un écosystème d'innovation collaborative afin de promouvoir la normalisation, la coopération, l'innovation et le développement de haute qualité de l'industrie.

Actualités IA

IA Quotidien

Chronologie de l'IA

Al hardware

Derniers cas

Collection d'images

Collection de vidéos

Collection audio

Collection de contenu

Derniers tutoriels

Classement des produits IA

Classement de la croissance du trafic IA

Classement de la baisse du trafic IA

Classement hebdomadaire de l'IA

États-Unis

Chine

Inde

Brésil

Génération d'images

Assistant personnel

Génération de personnages

Génération de vidéos

Classement des projets IA

Classement de la croissance des projets IA

Classement des développeurs IA

Classement des organisations IA

Deepseek

TTS

LLM

ChatGPT

Aperçu

Lightning : Modèle de synthèse vocale ultrarapide, génération de 10 secondes d'audio en 100 ms

AIbase基地

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

Lancement de Dia, un modèle TTS open source révolutionnaire : prise en charge des émotions, des indices non verbaux et une qualité comparable à une conversation humaine

ElevenLabs lance les serveurs MCP : intégration transparente de la synthèse vocale IA aux assistants intelligents

ByteDance lance MegaTTS3 sur Hugging Face : une percée dans la synthèse vocale légère

Sesame lance le modèle CSM : l'IA de synthèse vocale personnalisée en temps réel atteint de nouveaux sommets

Réponse de Lei Jun aux 7 jours de la fête nationale : 8 jours de critiques sur l'IA ; proposition de renforcer la législation sur la synthèse vocale et le remplacement de visage par IA

Système de synthèse vocale Spark-TTS : prise en charge du clonage vocal zéro-échantillon et du contrôle granulaire

Dubformer筹集360万美元，其情感传递技术彻底改变了AI配音

Proposition de Lei Jun au cours de la session parlementaire : renforcer la lutte contre les abus et les atteintes aux droits liés à la technologie de substitution faciale et vocale par IA

Les propositions de Lei Jun pour le Deuxième Congrès National du Peuple 2025 : se concentrer sur les terminaux d'intelligence artificielle et la régulation des applications de substitution et de synthèse vocale de l'IA

IndexTTS : Modèle de synthèse vocale texte-parole Bilibili : Correction orthographique des prononciations chinoises, contrôle précis des pauses