- हाल ही में जारी किए गए विकसित अद्यतनों में, गूगल ने Gemini2.5 संस्करण को अपडेट किया, जो आई.ए. ऑडियो बातचीत और उत्पादन प्रौद्योगिकी में महत्वपूर्ण सुधार का निशान है। Gemini2.5 एक मल्टीमोडल आई.ए. प्रणाली है जो मूल रूप से पाठ, छवि, ऑडियो, वीडियो और कोड को समझने और उत्पन्न करने में सक्षम है, इससे उपयोगकर्ताओं के आई.ए. से इंटरैक्टिव अनुभव में सुधार हुआ।
- जीमिनी2.5 की रियल-टाइम ऑडियो बातचीत क्षमता ने मानव-मशीन चैट को और भी प्राकृतिक बना दिया है। मानव बातचीत आमतौर पर टोन, उच्चारण और अलंगूर जैसी गैर-भाषिक ध्वनियों (जैसे हँसी) के साथ भरी पड़ी होती है, जो जीमिनी के ऑडियो उत्पादन प्रौद्योगिकी द्वारा प्रदर्शित किए जा सकते हैं। इसकी कम लैटेंसी विशेषता ने चैट को सुसंगत और प्राकृतिक बनाया है, जिससे उपयोगकर्ता अपने स्वाभाविक भाषा के माध्यम से बातचीत के स्टाइल को फिर से डिज़ाइन कर सकते हैं, जैसे विभिन्न उच्चारण और टोन का चयन कर सकते हैं, या बातचीत को चुपके से कर सकते हैं।
रियल-टाइम ऑडियो बातचीत
- मानव बातचीत समृद्ध और विस्तृत होती है, जिसका मतलब न केवल बोले गए शब्दों पर निर्भर करता है, बल्कि टोन, उच्चारण और अलंगूर जैसी गैर-भाषिक ध्वनियों (जैसे हँसी) पर भी निर्भर करता है। जीमिनी2.5 ने ऑडियो के माध्यम से एक कुशल और रियल-टाइम बातचीत की योजना बनाई है, जिसमें निम्नलिखित सुविधाएं शामिल हैं:
- प्राकृतिक बातचीत: उच्च गुणवत्ता वाली ध्वनि संवाद प्रदान करता है, जिसमें उचित प्रदर्शन और प्रवाह शामिल है, जिससे बातचीत सुसंगत और प्राकृतिक होती है, और लैटेंसी अत्यंत कम होती है।
- स्टाइल नियंत्रण: उपयोगकर्ता अपने स्वाभाविक भाषा के संकेतों के माध्यम से बातचीत के टोन, उच्चारण और भाव प्रकट करने के स्टाइल को स्वयं सेट कर सकते हैं, और चुपके से बातचीत करने का भी विकल्प है।
- उपकरण एक्सटेंशन: बातचीत के दौरान, जीमिनी2.5 उपयोगकर्ता को उपयोग करने वाले उपकरणों और फंक्शन को कॉल करने की सुविधा प्रदान करता है, जो Google Search जैसे स्रोतों से जानकारी को रियल-टाइम में लेता है, बातचीत की उपयोगिता में सुधार करता है।
- डायलॉग कॉन्टेक्स्ट जागरूकता: इस प्रणाली को आवाज़ और बेजुबान बातचीत को पहचानने और नगाते हुए बातचीत के उचित समय पर उत्तर देने की क्षमता है।
- ऑडियो और वीडियो समझ: रियल-टाइम ऑडियो और वीडियो स्ट्रीम का समर्थन करता है, जो उपयोगकर्ताओं के साथ वीडियो कंटेंट या स्क्रीन शेयरिंग से जुड़ी जानकारी की बातचीत करता है।
- बहुभाषीय समर्थन: 24 से अधिक भाषाओं का समर्थन करता है, जो एक ही बातचीत में भाषाओं को आसानी से बदल सकता है।
- भावनात्मक बातचीत: उपयोगकर्ता के टोन पर अनुकूलित उत्तर देता है, भाव व्यक्त करने वाले शब्दों की अंतरतम अंतर को समझता है।
- उन्नत विचार बातचीत: उच्च क्षमता के साथ बातचीत की एकाग्रता और बुद्धिमत्ता को सुधारता है, विशेषकर जटिल समस्याओं पर बेहतर प्रदर्शन करता है।
नियंत्रित पाठ से ऑडियो प्रौद्योगिकी
- जीमिनी2.5 की पाठ से ऑडियो (TTS) प्रौद्योगिकी ने एक नया तख़्तापल्ला तोड़ा है, जिससे उपयोगकर्ता न केवल स्वाभाविक ध्वनि आउटपुट उत्पन्न कर सकते हैं, बल्कि ऑडियो को भी अपरिहार्य रूप से नियंत्रित कर सकते हैं। उपयोगकर्ता छोटे फ़्रेज़ से लंबी कथाएँ तक की सामग्री उत्पन्न कर सकते हैं, स्टाइल, टोन, भावना और प्रदर्शन को यथार्थ रूप से नियंत्रित कर सकते हैं, जो सभी इसे स्वाभाविक भाषा के संकेतों के माध्यम से संशोधित किया जा सकता है।
- डायनेमिक प्रदर्शन: पाठ को जीवंत रूप से पढ़ा जा सकता है, कविताओं, समाचार प्रसारण और कहानियों के लिए उपयुक्त है, विशेष भावना और उच्चारण का समर्थन करता है।
- गति और उच्चारण नियंत्रण: उपयोगकर्ता ध्वनि की गति को नियंत्रित कर सकते हैं, और विशिष्ट शब्दों का सटीक उच्चारण बनाया जा सकता है।
- बहु बोलने वालों का बातचीत उत्पादन: इसके माध्यम से पाठ से दो लोगों का बातचीत ऑडियो उत्पन्न किया जा सकता है, जो सामग्री को अधिक आकर्षक बनाता है।
- बहुभाषीय ऑडियो उत्पादन: बहुभाषीय ऑडियो सामग्री आसानी से उत्पन्न की जा सकती है, 24 से अधिक भाषाओं का समर्थन करता है।
- जीमिनी2.5 के विकास के दौरान, गूगल ने संभावित जोखिमों का विश्लेषण किया और उनकी रिद्यूसन रणनीतियों का अनुसरण किया। सभी ऑडियो आउटपुट में SynthID नामक वॉटरमार्क तकनीक का शामिल किया गया है, जो आई.ए. उत्पन्न ऑडियो की पारदर्शी और पहचान प्रदान करती है।
- जीमिनी2.5 ने विकासकर्ताओं को समृद्ध मूल ऑडियो कार्यक्षमता प्रदान की है, जो Google AI Studio या Vertex AI के Gemini API के माध्यम से उन्हें अधिक इंटरैक्टिव एप्लिकेशन बनाने में सक्षम बनाती है। विकासकर्ताओं को Google AI Studio के फ़्लो टैब में Gemini2.5 Flash पूर्वावलोकन का मूल ऑडियो बातचीत परीक्षण करने की सुविधा है, या नियंत्रित पाठ से ऑडियो प्रौद्योगिकी का उपयोग करके घोषणाएं, कहानियाँ, पॉडकास्ट और वीडियो गेम्स जैसी एप्लिकेशनों में ऑडियो नवाचार करने का विकल्प है।
जेमिनी 2.5 संस्करण का रिलीज़ मूल साउंड कार्यक्षमता, AI बातचीत औराव प्राप्त

AIbase基地
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।