【AI डेली】 समाचार विभाग में आपका स्वागत है! यह आपके दैनिक कृत्रिम बुद्धिमत्ता दुनिया की खोज का मार्गदर्शक है, हम प्रतिदिन आपके लिए AI क्षेत्र में अपडेट करते हैं, डेवलपर्स पर केंद्रित, ताकि आप तकनीकी प्रवृत्ति को समझ सकें और नवीनतम AI उत्पाद अनुप्रयोगों के बारे में जान सकें।

ताजा AI उत्पाद जांचें :https://top.aibase.com/

1. अली टोंगयी श्रृंखला तर्क के समर्थन के साथ ध्वनि जनरेशन मॉडल ThinkSound ओपन सोर्स

अली ऑडियो एआई टीम ने विश्व के पहले ध्वनि जनरेशन मॉडल ThinkSound को ओपन सोर्स किया, जो श्रृंखला तर्क प्रौद्योगिकी के आविष्कार के माध्यम से पारंपरिक वीडियो से ध्वनि बनाने के तकनीकी सीमाओं को तोड़ दिया, उच्च गुणवत्ता वाली, शक्तिशाली सिंक्रनाइज़ेशन वाली स्पेस ध्वनि जनरेशन के साथ। यह तकनीकी प्रगति AI ध्वनि के "चित्र के साथ ध्वनि" से "छवि के संरचनात्मक अर्थ" की ओर की ओर की ओर एक कदम बढ़ाती है।

image.png

【AiBase सारांश:】

🧠 ThinkSound पहली बार बहुमाध्यमिक बड़े भाषा मॉडल और एकीकृत ध्वनि जनरेशन आर्किटेक्चर के संयोजन के साथ बनाई गई है, जो सटीक ध्वनि संश्लेषण करती है।

📊 अध्ययन टीम ने 2531.8 घंटे के उच्च गुणवत्ता सैंपल के साथ AudioCoT डेटा सेट बनाया, जो मॉडल के जटिल निर्देशों के साथ निपटने के क्षमता को बढ़ाता है।

🚀 ThinkSound विभिन्न परीक्षण सेट में अधिक अच्छा प्रदर्शन करता है, कोड और पूर्व-प्रशिक्षित भार ओपन सोर्स है, डेवलपर्स इसे मुफ्त में प्राप्त कर सकते हैं।

विवरण लिंक: https://github.com/FunAudioLLM/ThinkSound https://huggingface.co/spaces/FunAudioLLM/ThinkSound https://www.modelscope.cn/studios/iic/ThinkSound

2. गूगल Veo3 महान अपडेट, स्थैतिक छवि से जीवंत वीडियो बनाने के लिए समर्थन

गूगल ने AI वीडियो जनरेशन टूल Veo3 के लिए महान अपडेट घोषित किया, जिसमें आपको एक स्थैतिक छवि अपलोड करने की आवश्यकता होती है जिससे आप उच्च गुणवत्ता वाली ध्वनि और वीडियो सामग्री बना सकते हैं, जो कला के क्षेत्र में AI के बड़े संभावना को दर्शाता है। Veo3 के मुख्य कार्य शामिल हैं कि विभिन्न फ्रेम में चरित्र की एकरूपता बनाए रखता है, और विस्तृत फ्रेम बदलने के कार्यक्षमता जैसे कि डॉली इन (Dolly in) प्रदान करता है। इसके अलावा, उपयोगकर्ता अलग-अलग गुणवत्ता मॉडल चुन सकते हैं, लेकिन इसके लिए क्रेडिट की आवश्यकता होती है।

image.png

【AiBase सारांश:】

🖼️ Veo3 अपडेट के बाद एक विशिष्ट स्थैतिक छवि से उच्च गुणवत्ता वाले गतिशील वीडियो बनाने में सक्षम है।

🎥 फ्रेम बदलने के कार्यक्षमता जैसे कि डॉली इन (Dolly in) के समर्थन के साथ वीडियो के विशेषता में सुधार होता है।

🔊 उपयोगकर्ता अलग-अलग गुणवत्ता मॉडल चुन सकते हैं, लेकिन इसके लिए क्रेडिट की आवश्यकता होती है।

3. Hugging Face नए छोटे पैरामीटर मॉडल SmolLM3 जारी करता है: 128K संदर्भ, द्वि-मोड तर्क

Hugging Face ने SmolLM3 जारी किया, जो 3 बिलियन पैरामीटर के साथ छोटा ओपन सोर्स मॉडल है, जिसका प्रदर्शन Llama-3.2-3B और Qwen2.5-3B से बेहतर है। इस मॉडल में विभिन्न भाषा प्रक्रिया का समर्थन है और द्वि-मोड तर्क क्षमता है, साथ ही अनुसंधान और अनुकूलन के लिए आर्किटेक्चर विवरण साझा किए गए हैं।

image.png

【AiBase सारांश:】

🧠 SmolLM3 के 3 बिलियन पैरामीटर हैं, जो अन्य ओपन सोर्स मॉडल के लिए बेहतर प्रदर्शन करता है और विभिन्न भाषा प्रक्रिया का समर्थन करता है।

⚙️ गहरा सोच और असोच दोनों तर्क मोड प्रदान करता है, विभिन्न आवश्यकताओं के लिए लचीला रहता है।

📊 आधुनिक transformer डिकोडर आर्किटेक्चर का उपयोग करता है, तीन चरणों के मिश्रित प्रशिक्षण के माध्यम से क्षमता में सुधार करता है।

विवरण लिंक: https://huggingface.co/HuggingFaceTB/SmolLM3-3B-Base

4. अली ओपन सोर्स WebSailor, मजबूत तर्क और खोज क्षमता वाला

अली टोंगयी ने नेटवर्क एजेंट WebSailor ओपन सोर्स किया, जो मध्य और अंग्रेजी में कार्य में BrowseComp में अच्छा प्रदर्शन करता है, DeepSeek R1 और Grok-3 जैसे बंद मॉडल से आगे रहता है, जो मजबूत तर्क और खोज क्षमता दिखाता है। यिनहेन बैंक कहता है कि AI एजेंट अर्थव्यवस्था पूरी तरह से खुल गई है, और संबंधित SAAS कंपनियों पर ध्यान देने की सलाह देता है। संबंधित जारी कंपनियां जैसे फोकस टेक्नोलॉजी और जेन्जिन फाइनेंस ने AI एजेंट तकनीक अनुप्रयोग में अपनी तैयारी की है, जो बुद्धिमान एजेंट तकनीक के विकास को बढ़ावा दे रहे हैं।

image.png

【AiBase सारांश:】

📌 अली टोंगयी ओपन सोर्स WebSailor, तर्क और खोज क्षमता के साथ अच्छा प्रदर्शन करता है।

📈 यिनहेन बैंक कहता है कि AI एजेंट अर्थव्यवस्था पूरी तरह से खुल गई है, संबंधित SAAS कंपनियों पर ध्यान देने की सलाह देता है।

💡 संबंधित कंपनियां जैसे फोकस टेक्नोलॉजी और जेन्जिन फाइनेंस बुद्धिमान एजेंट तकनीक अनुप्रयोग में अपनी तैयारी के साथ अग्रणी हैं।

विवरण लिंक: https://github.com/Alibaba-NLP/WebAgent