【Report de AIbase】La société de génération vocale Fish Audio a officiellement lancé la version améliorée du modèle de reconnaissance vocale S1, marquant un grand progrès en termes d'expressivité émotionnelle et de réalisme. Le nouveau modèle est capable de générer des voix qui reflètent des émotions, un rythme et des variations de ton similaires à ceux d'une vraie personne, reproduisant presque parfaitement les subtilités du langage humain.
Selon les informations fournies, les utilisateurs n'ont besoin que d'un échantillon vocal d'environ 10 secondes pour que S1 puisse reproduire n'importe quelle voix, en conservant entièrement l'accent, le ton et le rythme originaux, en restituant les habitudes de parole et les caractéristiques émotionnelles de la personne, avec un résultat quasi identique à une voix humaine. Par rapport au produit international connu ElevenLabs, le service de reconnaissance vocale de Fish Audio est environ six fois plus économique, offrant un avantage évident en termes d'équilibre entre coût de génération vocale et performance.
En parallèle, l'API S1 de Fish Audio est également maintenant disponible, améliorant significativement l'expérience de génération vocale en temps réel. Son retard de la première image (TTFT) est inférieur à 500 millisecondes, ce qui permet de commencer à jouer une phrase en moins de demi-seconde ; elle prend en charge également le transfert en flux d'entrée et de sortie, permettant une interaction naturelle où les textes sont lus immédiatement pendant leur réception, et elle permet de reproduire indéfiniment différentes voix et de les changer librement.
Les experts du secteur estiment que l'amélioration du S1 de Fish Audio signifie que la technologie de reconnaissance vocale passe du « utilisable » au « ressenti ». Ses caractéristiques de haute fidélité et de faible latence accéléreront la mise en œuvre large des voix artificielles dans les domaines des personnages virtuels, des assistants intelligents, de la création de contenus et de la double voix.