क्यूटाई लैब्स ओपन सोर्स क्यूटाई टीटीएस: कम देरी वाली स्ट्रीमिंग पाठ से बोलने की तकनीक

AIbase基地

द्वारा प्रकाशितAI समाचार · 4 मिनट पढ़ें · Jul 4, 2025

7 जुलाई को, फ्रांस के AI अनुसंधान संस्थान Kyutai Labs ने अपनी नवीनतम पाठ-से-आवाज (TTS) तकनीक - Kyutai TTS के स्रोत कोड के साथ लॉन्च किया, जो डेवलपर्स और AI शौकीनों के लिए उच्च दक्षता और वास्तविक समय के आवाज जनरेशन हल प्रदान करता है। Kyutai TTS कम देरी और उच्च गुणवत्ता ध्वनि के साथ उभरा हुआ है, जो पाठ के बफर के बिना भी ध्वनि उत्पादन शुरू कर सकता है, जो वास्तविक समय के अंतःक्रिया परिदृश्य के लिए विशेष रूप से उपयुक्त है।

Kyutai TTS के प्रदर्शन में उत्कृष्टता है। एक एनवीडिया L40S GPU का उपयोग करके, यह मॉडल 32 अनुरोधों को एक साथ प्रसंस्करण कर सकता है, जबकि देरी केवल 350 मिलीसेकंड है। इसके अलावा, प्रणाली उच्च गुणवत्ता ध्वनि उत्पन्न करती है और शब्द के निर्यात के अक्षम समय टैग भी प्रदान करती है, जो वास्तविक समय के शब्दांकन या अंतःक्रिया एप्लिकेशन के लिए उपयोगी है, जैसे Unmute प्लेटफॉर्म के अंतर कार्यक्रम।

भाषा समर्थन और गुणवत्ता मूल्यांकन के मामले में, Kyutai TTS अब अंग्रेजी और फ्रेंच भाषा का समर्थन करता है, जिनके शब्द त्रुटि दर (WER) क्रमशः 2.82 और 3.29 हैं, जो उच्च सटीकता दर्शाते हैं। बोलने वाले के समानता के स्तर 77.1% (अंग्रेजी) और 78.7% (फ्रेंच) है, जो ध्वनि को प्राकृतिक और मूल नमूने के अत्यधिक निकट बनाता है। मॉडल लंबे लेखों के साथ भी काम कर सकता है, जो पारंपरिक TTS के 30 सेकंड के सीमा को तोड़ता है, जो समाचार, पुस्तकों आदि के लंबे सामग्री उत्पादन के लिए उपयुक्त है।

Kyutai TTS देरी बहुत ढांचा (DSM) संरचना का उपयोग करता है, जो Rust सर्वर के साथ उच्च दक्षता बैच प्रसंस्करण करता है, जो GitHub और Hugging Face पर स्रोत कोड और मॉडल वजन खुले रखता है, जो वैश्विक डेवलपर्स के लिए आवाज प्रौद्योगिकी नवाचार को बढ़ावा देने में मदद करता है।

AI नए शब्द क्यूटाई टीटीएस पाठ से बोलने ओपन सोर्स तकनीक

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI ऑपरेटिंग सिस्टम NeuralOS के नए संस्करण का उत्सर्जन हुआ! पूरी तरह से Windows इंटरफ़ेस की नकल करने में सक्षम भविष्य के मानव-यांत्रिक अंतरक्रिया का एक नया युग

चीनी टीम द्वारा खुला स्रोत AI ऑपरेटिंग सिस्टम NeuralOS को प्रस्तुत किया गया, जो कपाशी द्वारा प्रस्तावित AI युग के GUI आकांक्षा के अनुरूप है। इस सिस्टम में RNN और न्यूरल रेंडरर दो मॉड्यूल हैं, जो वास्तविक समय में पूर्वानुमान लगा सकते हैं और Windows ऑपरेशन इंटरफ़ेस की नकल कर सकते हैं, जो उपयोगकर्ता के ऑपरेशन के प्रतिक्रिया को सही ढंग से प्रदर्शित कर सकते हैं। डेवलपर्स ने बड़ी संख्या में ऑपरेशन वीडियो का उपयोग सिस्टम के अभ्यास के लिए किया, जिसके बाद वर्तमान में उपयोगकर्ता के ऑपरेशन के पूर्वानुमान के साथ अच्छी तरह से सटीक है, लेकिन तेज़ कीबोर्ड इनपुट के साथ निपटने में अभी भी कमजोरी है। NeuralOS के ऑनलाइन परीक्षण संस्करण की पेशकश की गई है, जो भविष्य में AI द्वारा डायनमिक रूप से बनाए गए ऑपरेटिंग सिस्टम के नए अनुभव को दर्शाता है। कोड के साथ जारी रखें

Jul 16, 2025

पड़ोसी सामाजिक शैली के नए उत्साह! Nextdoor ने AI सुझाव और वास्तविक समय के चेतावनी कार्यक्रम पेश किए

पड़ोसी सामाजिक एप्लिकेशन Nextdoor नए संस्करण के साथ आया है, जिसमें तीन नई सुविधाएं जोड़ी गई हैं: स्थानीय समाचार एग्ग्रीगेटर (3500 स्थानीय मीडिया संगठन के साथ सहयोग), वास्तविक समय के सुरक्षा चेतावनी (जलवायु / यातायात / आपदा चेतावनी) और AI रिकॉमेंड Faves (15 साल के पड़ोसी डेटा के आधार पर व्यक्तिगत स्थानीय सेवा सुझाव)। प्लेटफॉर्म पहले देखे गए गलत सूचना समस्या को हल करने के लिए बनाया गया है, सामग्री गुणवत्ता और समय परता में सुधार के माध्यम से उपयोगकर्ता भागीदारी को फिर से जीवंत करने के लिए। CEO टोरिया ने इसके मुख्य लाभ के बारे में बताया कि वे डिजिटल पड़ोसी रिपुटेशन में हैं, जो अन्य प्लेटफॉर्म अनुकरण नहीं कर सकते हैं।

Jul 16, 2025

किमी के 2 छोटी कहानी रचना लेखन विजेता बने o3-प्रो के अतिक्रमण AI साहित्य के नए स्तर को दर्शाते हैं

Jul 16, 2025

गूगल डिस्कोवर में AI सारांश फीचर लॉन्च, समाचार वेबसाइट के ट्रैफिक का नया चुनौती हो सकता है!

गूगल सर्च एप्लिकेशन में AI सारांश फीचर लॉन्च किया गया है, जिसके कारण प्रकाशकों के ट्रैफिक के बारे में चिंता हो रही है। यह फीचर अमेरिका में आधिकारिक रूप से लॉन्च किया गया है, AI द्वारा समाचार सारांश बनाता है और स्रोत को चिह्नित करता है, जो मुख्य रूप से खेल और मनोरंजन जैसे लोकप्रिय विषयों को कवर करता है। गूगल का कहना है कि इस कदम से उपयोगकर्ताओं के लिए सामग्री चयन में मदद मिल सकती है, लेकिन प्रकाशक अपने वेबसाइट के ट्रैफिक पर प्रभाव के बारे में चिंतित हैं। डेटा के अनुसार, मई में फीचर लॉन्च के बाद, समाचार वेबसाइट पर क्लिक न करने वाले खोज प्रश्नों के प्रतिशत में 56% से 69% तक वृद्धि हुई है, जिसके कारण प्रकाशकों के ऑर्गेनिक ट्रैफिक में गिरावट आई है। हालांकि, गूगल नए तरीकों जैसे ऑफरवॉल द्वारा प्रकाशकों के लिए आय बढ़ाने की कोशिश कर रहा है, लेकिन ट्रैफिक घटाने की प्रवृत्ति अब भी है।

Jul 16, 2025

मेटा ने दुनिया के पहले 1GW+ ऊर्जा खपत वाले सुपरकंप्यूटर क्लस्टर के लॉन्च होने की घोषणा की, AI गणना प्रतिस्पर्धा फिर से बढ़ गई

मेटा ने AI बुनियादी ढांचे के विकास को तेज करने की घोषणा की, 2026 में दुनिया के पहले 1 गीगावाट से अधिक ऊर्जा खपत वाले सुपरकंप्यूटर क्लस्टर प्रोमेथियस के लॉन्च की योजना बनाई है, जिसमें 13 लाख NVIDIA H100 GPU होंगे, जिसकी गणना क्षमता 2 एक्साफ्लॉप्स से अधिक होगी। इसके अलावा 5 गीगावाट के आकार के Hyperion क्लस्टर की योजना भी बनाई गई है, जिसमें तरल शीतलन तकनीक का उपयोग किया जाएगा। मेटा ने 2025 तक डेटा केंद्रों और AI टीम के विकास के लिए 60 बिलियन से 65 बिलियन अमेरिकी डॉलर के निवेश की योजना बनाई है, जिसका उद्देश्य OpenAI, xAI आदि कंपनियों के साथ गणना क्षमता के प्रतिस्पर्धा में भाग लेना है।

Jul 15, 2025

अमेज़न प्राइम डे आगे बढ़ रहा है! अमेरिकी ई-कॉमर्स बिक्री 24 बिलियन अमरीकी डॉलर से अधिक हो गई! AI ट्रैफिक में 3300% की वृद्धि!

Jul 15, 2025

Amazon नए AI कोड संपादक Kiro लॉन्च करता है, जो Claude 4/3.7 Sonnet के साथ मुफ्त में उपलब्ध है

एमाज़ॉन AWS नए AI विकास साधन Kiro लॉन्च करता है, जिसका मुख्य ध्यान नियम-आधारित विकास अवधारणा है। इस उपकरण को ओपन सोर्स Code OSS प्लेटफॉर्म पर आधारित है, VS Code पारिस्थितिकी से सुसंगत है, और AI सहयोग के माध्यम से पहले आवश्यकता दस्तावेज और प्रणाली डिजाइन बनाता है, फिर कोड, परीक्षण मामले और दस्तावेज बनाता है, जिससे कोड गुणवत्ता सुनिश्चित होती है। Kiro कई प्रकार के इनपुट, स्वचालित परीक्षण आदि के समर्थन के साथ उपलब्ध है, वर्तमान में मुफ्त पूर्व दृश्य के लिए उपलब्ध है, जिसके बाद भुगतान वाला संस्करण लॉन्च किया जाएगा। इस नियम-आधारित विकास प्रक्रिया के संभावित समाधान एआई द्वारा जनित कोड के रखरखाव की समस्या है, लेकिन शुरुआती उपयोग में जटिलता हो सकती है।

Jul 15, 2025

मेटा रोबोनियो लॉन्च: एक वाक्य में फोटो संपादन और वेबसाइट बनाना AI छवि प्रसंस्करण के सभी क्षेत्रों में प्रवेश

Jul 15, 2025

AI के नए तरीके से पार होना लोकप्रिय हो गया! 12 साल के बच्चे के रूप में 23 साल कैसा दिखता है देखिए?

AI तकनीक से 'टाइम ट्रैवल' ट्रेंड बना, ChatGPT से 12 साल की तस्वीर को 23 साल में बदलकर वायरल। TikTok के 'AI टाइम मशीन' फिल्टर ने 1.7 लाख यूजर्स को आकर्षित किया, पर परिणाम मिले-जुले: मस्क की 20 साल की तस्वीर पहचान से बाहर, एशियाई अभिनेत्रियों के परिणाम पूरी तरह गलत। विशेषज्ञों का कहना है यह तकनीक सामान्य ट्रेंड पर आधारित है, व्यक्तिगत भविष्यवाणी सटीक नहीं। मनोरंजक AI अनुभव सोशल मीडिया पर चर्चा का विषय बना हुआ है।....

Jul 14, 2025

संयुक्त राष्ट्र संगठन के संबंधित एजेंसी ने AI शरणार्थी वर्चुअल पात्र पेश किया, जो आमजन के लिए शरणार्थी समस्या के बारे में जागरूकता बढ़ाने के लिए

संयुक्त राष्ट्र विश्वविद्यालय के अनुसंधान टीम ने दो AI वर्चुअल पात्र विकसित किए - सूडान के शरणार्थी अमीना और आतंकवादी अब्दुल्ला, शरणार्थी संकट के बारे में जागरूकता बढ़ाने के लिए बातचीत के रूप में। इस परियोजना का संचालन वैज्ञानिक टीम द्वारा प्रयोगात्मक रूप से किया गया था और संयुक्त राष्ट्र के आधिकारिक परियोजना नहीं है। हालाँकि, अनुसंधानकर्ता उनका दान संग्रह के लिए उपयोग करने के विचार के साथ आए, लेकिन परीक्षकों के प्रतिक्रिया नकारात्मक रही, क्योंकि वास्तविक शरणार्थी खुद अपनी आवाज उठा सकते हैं। अब जाकर संबंधित वेबसाइट ठीक से एक्सेस नहीं किया जा सकता। (139 शब्द)

Jul 14, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

क्यूटाई लैब्स ओपन सोर्स क्यूटाई टीटीएस: कम देरी वाली स्ट्रीमिंग पाठ से बोलने की तकनीक

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

पड़ोसी सामाजिक शैली के नए उत्साह! Nextdoor ने AI सुझाव और वास्तविक समय के चेतावनी कार्यक्रम पेश किए

किमी के 2 छोटी कहानी रचना लेखन विजेता बने o3-प्रो के अतिक्रमण AI साहित्य के नए स्तर को दर्शाते हैं

गूगल डिस्कोवर में AI सारांश फीचर लॉन्च, समाचार वेबसाइट के ट्रैफिक का नया चुनौती हो सकता है!

Amazon नए AI कोड संपादक Kiro लॉन्च करता है, जो Claude 4/3.7 Sonnet के साथ मुफ्त में उपलब्ध है

मेटा रोबोनियो लॉन्च: एक वाक्य में फोटो संपादन और वेबसाइट बनाना AI छवि प्रसंस्करण के सभी क्षेत्रों में प्रवेश

AI के नए तरीके से पार होना लोकप्रिय हो गया! 12 साल के बच्चे के रूप में 23 साल कैसा दिखता है देखिए?