जेमिनी 2.5 संस्करण का रिलीज़ मूल साउंड कार्यक्षमता, AI बातचीत औराव प्राप्त

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jun 5, 2025

हाल ही में जारी किए गए विकसित अद्यतनों में, गूगल ने Gemini2.5 संस्करण को अपडेट किया, जो आई.ए. ऑडियो बातचीत और उत्पादन प्रौद्योगिकी में महत्वपूर्ण सुधार का निशान है। Gemini2.5 एक मल्टीमोडल आई.ए. प्रणाली है जो मूल रूप से पाठ, छवि, ऑडियो, वीडियो और कोड को समझने और उत्पन्न करने में सक्षम है, इससे उपयोगकर्ताओं के आई.ए. से इंटरैक्टिव अनुभव में सुधार हुआ।
जीमिनी2.5 की रियल-टाइम ऑडियो बातचीत क्षमता ने मानव-मशीन चैट को और भी प्राकृतिक बना दिया है। मानव बातचीत आमतौर पर टोन, उच्चारण और अलंगूर जैसी गैर-भाषिक ध्वनियों (जैसे हँसी) के साथ भरी पड़ी होती है, जो जीमिनी के ऑडियो उत्पादन प्रौद्योगिकी द्वारा प्रदर्शित किए जा सकते हैं। इसकी कम लैटेंसी विशेषता ने चैट को सुसंगत और प्राकृतिक बनाया है, जिससे उपयोगकर्ता अपने स्वाभाविक भाषा के माध्यम से बातचीत के स्टाइल को फिर से डिज़ाइन कर सकते हैं, जैसे विभिन्न उच्चारण और टोन का चयन कर सकते हैं, या बातचीत को चुपके से कर सकते हैं।
रियल-टाइम ऑडियो बातचीत
मानव बातचीत समृद्ध और विस्तृत होती है, जिसका मतलब न केवल बोले गए शब्दों पर निर्भर करता है, बल्कि टोन, उच्चारण और अलंगूर जैसी गैर-भाषिक ध्वनियों (जैसे हँसी) पर भी निर्भर करता है। जीमिनी2.5 ने ऑडियो के माध्यम से एक कुशल और रियल-टाइम बातचीत की योजना बनाई है, जिसमें निम्नलिखित सुविधाएं शामिल हैं:
प्राकृतिक बातचीत: उच्च गुणवत्ता वाली ध्वनि संवाद प्रदान करता है, जिसमें उचित प्रदर्शन और प्रवाह शामिल है, जिससे बातचीत सुसंगत और प्राकृतिक होती है, और लैटेंसी अत्यंत कम होती है।
स्टाइल नियंत्रण: उपयोगकर्ता अपने स्वाभाविक भाषा के संकेतों के माध्यम से बातचीत के टोन, उच्चारण और भाव प्रकट करने के स्टाइल को स्वयं सेट कर सकते हैं, और चुपके से बातचीत करने का भी विकल्प है।
उपकरण एक्सटेंशन: बातचीत के दौरान, जीमिनी2.5 उपयोगकर्ता को उपयोग करने वाले उपकरणों और फंक्शन को कॉल करने की सुविधा प्रदान करता है, जो Google Search जैसे स्रोतों से जानकारी को रियल-टाइम में लेता है, बातचीत की उपयोगिता में सुधार करता है।
डायलॉग कॉन्टेक्स्ट जागरूकता: इस प्रणाली को आवाज़ और बेजुबान बातचीत को पहचानने और नगाते हुए बातचीत के उचित समय पर उत्तर देने की क्षमता है।
ऑडियो और वीडियो समझ: रियल-टाइम ऑडियो और वीडियो स्ट्रीम का समर्थन करता है, जो उपयोगकर्ताओं के साथ वीडियो कंटेंट या स्क्रीन शेयरिंग से जुड़ी जानकारी की बातचीत करता है।
बहुभाषीय समर्थन: 24 से अधिक भाषाओं का समर्थन करता है, जो एक ही बातचीत में भाषाओं को आसानी से बदल सकता है।
भावनात्मक बातचीत: उपयोगकर्ता के टोन पर अनुकूलित उत्तर देता है, भाव व्यक्त करने वाले शब्दों की अंतरतम अंतर को समझता है।
उन्नत विचार बातचीत: उच्च क्षमता के साथ बातचीत की एकाग्रता और बुद्धिमत्ता को सुधारता है, विशेषकर जटिल समस्याओं पर बेहतर प्रदर्शन करता है।
नियंत्रित पाठ से ऑडियो प्रौद्योगिकी
जीमिनी2.5 की पाठ से ऑडियो (TTS) प्रौद्योगिकी ने एक नया तख़्तापल्ला तोड़ा है, जिससे उपयोगकर्ता न केवल स्वाभाविक ध्वनि आउटपुट उत्पन्न कर सकते हैं, बल्कि ऑडियो को भी अपरिहार्य रूप से नियंत्रित कर सकते हैं। उपयोगकर्ता छोटे फ़्रेज़ से लंबी कथाएँ तक की सामग्री उत्पन्न कर सकते हैं, स्टाइल, टोन, भावना और प्रदर्शन को यथार्थ रूप से नियंत्रित कर सकते हैं, जो सभी इसे स्वाभाविक भाषा के संकेतों के माध्यम से संशोधित किया जा सकता है।
डायनेमिक प्रदर्शन: पाठ को जीवंत रूप से पढ़ा जा सकता है, कविताओं, समाचार प्रसारण और कहानियों के लिए उपयुक्त है, विशेष भावना और उच्चारण का समर्थन करता है।
गति और उच्चारण नियंत्रण: उपयोगकर्ता ध्वनि की गति को नियंत्रित कर सकते हैं, और विशिष्ट शब्दों का सटीक उच्चारण बनाया जा सकता है।
बहु बोलने वालों का बातचीत उत्पादन: इसके माध्यम से पाठ से दो लोगों का बातचीत ऑडियो उत्पन्न किया जा सकता है, जो सामग्री को अधिक आकर्षक बनाता है।
बहुभाषीय ऑडियो उत्पादन: बहुभाषीय ऑडियो सामग्री आसानी से उत्पन्न की जा सकती है, 24 से अधिक भाषाओं का समर्थन करता है।
जीमिनी2.5 के विकास के दौरान, गूगल ने संभावित जोखिमों का विश्लेषण किया और उनकी रिद्यूसन रणनीतियों का अनुसरण किया। सभी ऑडियो आउटपुट में SynthID नामक वॉटरमार्क तकनीक का शामिल किया गया है, जो आई.ए. उत्पन्न ऑडियो की पारदर्शी और पहचान प्रदान करती है।
जीमिनी2.5 ने विकासकर्ताओं को समृद्ध मूल ऑडियो कार्यक्षमता प्रदान की है, जो Google AI Studio या Vertex AI के Gemini API के माध्यम से उन्हें अधिक इंटरैक्टिव एप्लिकेशन बनाने में सक्षम बनाती है। विकासकर्ताओं को Google AI Studio के फ़्लो टैब में Gemini2.5 Flash पूर्वावलोकन का मूल ऑडियो बातचीत परीक्षण करने की सुविधा है, या नियंत्रित पाठ से ऑडियो प्रौद्योगिकी का उपयोग करके घोषणाएं, कहानियाँ, पॉडकास्ट और वीडियो गेम्स जैसी एप्लिकेशनों में ऑडियो नवाचार करने का विकल्प है।

जेमिनी 2.5 AI साउंड डायलॉग गूगल बहु-आधार AI सिस्टम

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

20000 डॉलर में एक घरेलू अनुकरण? OpenAI के निवेश के साथ 1X Neo मानव रूपी रोबोट प्री-ऑर्डर शुरू करता है, अगले साल अमेरिकी परिवार में प्रवेश करता है

नॉर्वे की रोबोट कंपनी 1X ने पहला घरेलू मानव रूपी रोबोट Neo लॉन्च किया, जिसकी कीमत 20000 डॉलर है, और मासिक सदस्यता शुल्क 499 डॉलर है। यह 1.68 मीटर ऊंचा रोबोट बर्तन धोने, सजावट आदि घरेलू कार्यों के लिए डिज़ाइन किया गया है, AI और मानव द्वारा दूरस्थ सहयोग के मोड का उपयोग करता है, जिसके लिए बाहरी समर्थन की आवश्यकता होती है जटिल कार्य पूरा करने के लिए।

Oct 29, 2025

160

«डे ज़» के निर्माता ने AI के डर को पहले गूगल और विकिपीडिया के डर के समान बताया

AI तकनीक तेजी से विकसित हो रही है, खेल उद्योग में बदलाव हो रहा है। प्रकार्यात्मक AI नए अवसर और चुनौतियाँ लेकर आया है, माइक्रोसॉफ्ट, एमजेड नेटवर्क आदि कंपनियाँ अपने संसाधनों को AI अनुप्रयोगों की ओर ले जा रही हैं। खेल विकसक इस पर अलग-अलग दृष्टिकोण रखते हैं, उद्योग के भविष्य में अनिश्चितता है।

Oct 29, 2025

120

क्वालकॉम डेटा सेंटर में प्रवेश करता है! AI200/AI250 चिप के साथ नेविडिया के खिलाफ बृहत वितरण, एक दिन में 20% बढ़ी शेयर की कीमत

क्वालकॉम ने दो क्लाउड एआई रिज़ोल्यूशन चिप AI200 और AI250 लॉन्च किए, जिनका व्यावसायिक उपयोग 2026 और 2027 में होगा, जो अंत तक चिप से पूर्ण एआई बुनियादी संरचना में परिवर्तन के संकेत देता है। इस घोषणा ने एक दिन में 20% तक शेयर मूल्य को बढ़ा दिया, जो 2019 के बाद सबसे बड़ी वृद्धि है। नेविडिया के समग्र पथ के विपरीत, क्वालकॉम बड़े मॉडल रिज़ोल्यूशन बाजार पर ध्यान केंद्रित करता है और ऊर्जा दक्षता और लागत लाभ पर जोर देता है।

Oct 29, 2025

140

निवीडिया एआई केंद्र के क्रांतिकारी डिज़ाइन पेश करता है, उच्च कार्यक्षमता गणना में सहायता करता है

2025 के GTC में, निवीडिया ने 'Omniverse DSX Blueprint' डिज़ाइन पेश किया, जो गिगावाट के एआई केंद्र के लिए विशेष रूप से बनाया गया था, जिसे 'एआई कारखाना' कहा जाता है। यह डिज़ाइन Omniverse फ्रेमवर्क के आधार पर है, जो 1 करोड़ वॉट से 10 करोड़ वॉट तक के अलग-अलग आकार के लिए समर्थन प्रदान करता है, बड़े एआई मॉडल के दक्षता प्रशिक्षण और चलाने के लिए डिज़ाइन किया गया है, जो बढ़ती हुई एआई गणना आवश्यकताओं को पूरा करता है, यह मनुष्य के बुद्धिमत्ता बुनियादी संरचना में महत्वपूर्ण प्रगति है।

Oct 29, 2025

110

गूगल ने AI मार्केटिंग टूल पॉमेली लॉन्च किया: केवल वेबसाइट के पते के साथ ब्रांड कंटेंट स्वचालित रूप से बनाएं

गूगल ने पोमेली AI मार्केटिंग टूल लॉन्च किया। वेबसाइट डालते ही यह स्वचालित मार्केटिंग कॉन्टेंट बनाता है, जो छोटे-मध्यम व्यवसायों के लिए आदर्श है।....

Oct 29, 2025

अमेरिकी स senाटर ने कम उम्र के लोगों के AI चैटबॉट का उपयोग रोकने का प्रस्ताव दिया

अमेरिका के दो सीनेटर GUARD कानून का प्रस्ताव दिया, जिसमें AI कंपनियों को चैटबॉट उपयोगकर्ताओं की उम्र की पुष्टि करने की आवश्यकता होती है, 18 वर्ष से कम उम्र के युवा के लिए अयोग्य। कानून माता-पिता और सुरक्षा प्रेरकों के AI के बच्चों पर प्रभाव के चिंताओं का जवाब देता है, जिसका उद्देश्य बच्चों की सुरक्षा है।

Oct 29, 2025

हुआंग रेन्यू ने AI बुलबुला सिद्धांत को खंडित किया, नवीनतम चिप्स ने 50 अरब डॉलर की आय के लिए अपेक्षा की

वॉशिंगटन GTC में नवीदा के एमएसपी हुआंग रेन्यू ने AI बाजार के बुलबुला सिद्धांत को खंडित किया, अगले कुछ महीनों में नवीनतम Blackwell और Rubin चिप्स 50 अरब डॉलर की आय बनाने की उम्मीद है, जिससे कंपनी के अप्रत्याशित वृद्धि चक्र में प्रवेश होगा। यह नवीदा के लिए अमेरिकी राजधानी में इस सम्मेलन के आयोजन का पहला अवसर था।

Oct 29, 2025

2025 के तीसरे तिमाही में AI एप्लिकेशन बाजार की स्थिति: मोबाइल उपयोगकर्ता 7 बिलियन को पार कर गए, डू बाओ ने मूल एआई एप्लिकेशन मासिक सक्रिय उपयोगकर्ता पहला स्थान हासिल किया

QuestMobile की रिपोर्ट के अनुसार, 2025 के तीसरे तिमाही में मोबाइल AI एप्लिकेशन उपयोगकर्ता 7 बिलियन से अधिक हो गए, मूल एप्लिकेशन, In-APP AI और मोबाइल AI असिस्टेंट के मासिक सक्रिय उपयोगकर्ता क्रमशः 287 करोड़, 706 करोड़ और 535 करोड़ हैं, जिसका संयुक्त वृद्धि दर 3.4%, 9.3% और 1.2% है। वृद्धि का मुख्य कारण निर्माता मॉडल अपग्रेड और पारिस्थितिकी सहयोग है, जबकि इंटरनेट कंपनियां बड़े मॉडल के अपडेट में सक्रिय रहती हैं।

Oct 29, 2025

130

माइक्रोसॉफ्ट और ओपनएआई के संघ के पुनर्निर्माण: 250 बिलियन डॉलर के एज़्यूर आर्डर के पीछे ओपनएआई के बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद

माइक्रोसॉफ्ट और ओपनएआई के बीच एक नया समझौता हुआ, जिसके अंतर्गत ओपनएआई 250 बिलियन डॉलर के एज़्यूर क्लाउड सेवाएं खरीदेगा, जो तकनीकी ऐतिहासिक रूप से क्लाउड खरीदारी के रिकॉर्ड को तोड़ देगा। महत्वपूर्ण अग्रिम ओपनएआई के बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद बाद

Oct 29, 2025

150

ओपनएआई ने संगठन की पुनर्गठन पूरा कर लिया: एक लाभ उद्देश्य वाली संगठन में - कृत्रिम बुद्धिमत्ता के भविष्य बहुत आशाजनक होगा

ओपनएआई को एक लाभ उद्देश्य वाली कंपनी, ओपनएआई समूह में पुनर्गठित कर दिया गया था, जो एक लाभ रहित फाउंडेशन के अधीन काम करता है। नया संरचना मॉडल अनुमति देता है

Oct 29, 2025

100

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

जेमिनी 2.5 संस्करण का रिलीज़ मूल साउंड कार्यक्षमता, AI बातचीत औराव प्राप्त

AIbase基地

रियल-टाइम ऑडियो बातचीत

नियंत्रित पाठ से ऑडियो प्रौद्योगिकी

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

«डे ज़» के निर्माता ने AI के डर को पहले गूगल और विकिपीडिया के डर के समान बताया

क्वालकॉम डेटा सेंटर में प्रवेश करता है! AI200/AI250 चिप के साथ नेविडिया के खिलाफ बृहत वितरण, एक दिन में 20% बढ़ी शेयर की कीमत

निवीडिया एआई केंद्र के क्रांतिकारी डिज़ाइन पेश करता है, उच्च कार्यक्षमता गणना में सहायता करता है

गूगल ने AI मार्केटिंग टूल पॉमेली लॉन्च किया: केवल वेबसाइट के पते के साथ ब्रांड कंटेंट स्वचालित रूप से बनाएं

अमेरिकी स senाटर ने कम उम्र के लोगों के AI चैटबॉट का उपयोग रोकने का प्रस्ताव दिया

हुआंग रेन्यू ने AI बुलबुला सिद्धांत को खंडित किया, नवीनतम चिप्स ने 50 अरब डॉलर की आय के लिए अपेक्षा की

संबंधित AI समाचार अनुशंसाएँ

«डे ज़» के निर्माता ने AI के डर को पहले गूगल और विकिपीडिया के डर के समान बताया

क्वालकॉम डेटा सेंटर में प्रवेश करता है! AI200/AI250 चिप के साथ नेविडिया के खिलाफ बृहत वितरण, एक दिन में 20% बढ़ी शेयर की कीमत

निवीडिया एआई केंद्र के क्रांतिकारी डिज़ाइन पेश करता है, उच्च कार्यक्षमता गणना में सहायता करता है

गूगल ने AI मार्केटिंग टूल पॉमेली लॉन्च किया: केवल वेबसाइट के पते के साथ ब्रांड कंटेंट स्वचालित रूप से बनाएं

अमेरिकी स senाटर ने कम उम्र के लोगों के AI चैटबॉट का उपयोग रोकने का प्रस्ताव दिया

हुआंग रेन्यू ने AI बुलबुला सिद्धांत को खंडित किया, नवीनतम चिप्स ने 50 अरब डॉलर की आय के लिए अपेक्षा की

GEO Services