GPT-4V के साथ कड़ा मुकाबला! झेजियांग यूनिवर्सिटी के पूर्व छात्र ने ओपन-सोर्स मल्टी-मॉडल बड़ा मॉडल LLaVA-1.5 बनाया, 13 अरब पैरामीटर 8 A100 GPUs पर एक दिन में प्रशिक्षित

新智元

द्वारा प्रकाशितAI समाचार · 2 मिनट पढ़ें · Oct 8, 2023

153

विस्कॉन्सिन विश्वविद्यालय, मैडिसन, माइक्रोसॉफ्ट रिसर्च और कोलंबिया विश्वविद्यालय के शोधकर्ताओं ने मल्टीमॉडल बड़े मॉडल LLaVA-1.5 को ओपन-सोर्स किया है, जो 11 बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन दिखाता है, जिसमें दृश्य प्रश्न-उत्तर और छवि कैप्शन कार्य शामिल हैं। LLaVA-1.5 को केवल 8 A100 GPU की आवश्यकता होती है और यह 1 दिन के भीतर प्रशिक्षण पूरा करता है, प्रदर्शन में उल्लेखनीय है। शोधकर्ताओं ने आउटपुट फ़ॉर्मेट संकेतों को समायोजित करने की प्रक्रिया में जोड़ने का एक तरीका प्रस्तुत किया, जिससे मॉडल विभिन्न कार्यों के लिए बेहतर अनुकूलित हो सके। LLaVA-1.5 की मजबूत मल्टीमॉडल समझने की क्षमता GPT-4V की स्थिति को चुनौती देती है।

LLaVA-1.5 मल्टी-मॉडल बड़ा मॉडल GPT-4V

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

अलीबाबा टोंगयी क्वेन ने Qwen3-VL हल्का मॉडल लॉन्च किया: 4B और 8B पैरामीटर संस्करण कुशलता पहले 72B शीर्ष उत्पाद तक पहुँच गई

अलीबाबा टोंगयी क्वेन टीम ने Qwen3-VL श्रृंखला के दो हल्का मॉडल लॉन्च किए, जिनके पैरामीटर के स्केल क्रमशः 4B और 8B है। यह श्रृंखला अब तक के सबसे मजबूत दृश्य-भाषा मॉडल परिवार है, छोटे पैरामीटर संस्करण जोड़े गए हैं जो डेप्लॉयमेंट के बाधा कम करने के लिए हैं, लेकिन साथ ही मजबूत प्रदर्शन बरकरार रखा गया है। प्रत्येक स्केल में आदेश पालन और चिंतन श्रृंखला तर्क दो संस्करण प्रदान किए जाते हैं, जो विकासकर्ताओं के लिए अधिक लचीला विकल्प प्रदान करते हैं।

Oct 15, 2025

पेनसिल्वेनिया विश्वविद्यालय के अध्ययन में पाया गया: कृत्रिम बुद्धि के लिए अधिक करुणा से उत्तर देने पर सटीकता अधिक होती है

पेन्सिलवेनिया स्टेट यूनिवर्सिटी के शोध में पाया गया कि AI से सीधे या रूखे ढंग से बात करने पर अधिक सटीक उत्तर मिलते हैं। 50 प्रश्नों के परीक्षण में 5 तरह के बोलचाल के प्रभाव का अध्ययन किया गया।....

Oct 15, 2025

चीनी एआई दृश्य मॉडल जूज़ो वी1.5 लॉन्च किया गया: चेनी एमएस पर आधारित पहला पूर्ण एकोलॉजी साइट-साइड मॉडल चांगशा में लॉन्च किया गया

सीएससीएस और हुनान हुईशीवे चांगशा में जूज़ो वी1.5 साइट-साइड संस्करण लॉन्च करते हैं, यह पहला चीनी एमएस पर आधारित दृश्य बेस मॉडल का महत्वपूर्ण अपग्रेड है। नए संस्करण एक सिस्टम से पूर्ण पारिस्थितिकी तक संक्रमण करता है, एंड्रॉइड सिस्टम के पूर्ण अनुकूलन के साथ, अंतर-प्लेटफॉर्म, बहु-चिप साइट-साइड एआई डेप्लॉयमेंट क्षमता बनाता है, जो चीनी एआई दृश्य प्रौद्योगिकी में साइट-साइड डेप्लॉयमेंट क्षेत्र में नए अंक के रूप में बर्खास्त करता है।

Oct 15, 2025

GPT-5 Pro भूले हुए गणितीय उत्तर ढूंढता है: एर्डोस समस्या #339 का समाधान पहले से ही 2003 में साबित कर दिया गया था

ओपनएआई के GPT-5Pro ने छवि संचयन के माध्यम से एर्डोस समस्या #339 जो 2003 में पहले से ही साबित कर दिया गया था, का एक प्रमाण पत्र पहचान लिया, जिसके बाद गणित के विश्व में आश्चर्य हुआ। यह संख्या सिद्धांत की समस्या पॉल एर्डोस द्वारा प्रस्तुत की गई थी, जिसका मुख्य अध्ययन स्वाभाविक संख्या समुच्चय A के r-क्रम आधार के रूप में उपयोग करके एक विशिष्ट गणितीय गुण को कवर करने के लिए आवश्यकता है कि इसके r तत्वों का उपयोग किया जा सके। 22 साल पहले हल हो गई इस बड़ी समस्या के बारे में जानकारी सामान्य खोज में एआई के अभियांत्रिकी संभावनाओं को दर्शाती है।

Oct 14, 2025

मेटा सुपर एआई प्रयोगशाला ने आरएजी तकनीक के बाधा को तोड़ा: रेफ्रैग फ्रेमवर्क ने तर्क की गति 30 गुना बढ़ा दी

मेटा सुपर एआई प्रयोगशाला ने आरएजी तकनीक पेश की, जिससे बड़े भाषा मॉडल में अन्वेषण एकीकृत जनरेशन कार्यों में तर्क की गति 30 गुना से अधिक बढ़ गई। इस नवाचीन प्रगति को संबंधित पेपर में प्रकाशित किया गया था, जो एआई मॉडल के कार्यकरण के तरीके को गहराई से बदल देती है। इस प्रयोगशाला की जुलाई में कैलिफोर्निया में स्थापना की गई थी, जो जैक जॉकब द्वारा लामा4 मॉडल पर ध्यान देने के कारण हुई।

Oct 14, 2025

100 डॉलर में स्वयं के चैटजीपीटी बनाएं: AI प्रौद्योगिकी विशेषज्ञ ने खुला स्रोत nanochat शिक्षण उपकरण जारी किया 4 घंटे में शून्य से चैट बॉट बनाएं

nanochat ओपन-सोर्स प्रोजेक्ट AI मॉडल ट्रेनिंग को आसान बनाता है। सिर्फ 100 डॉलर में पूर्ण चैट AI सिस्टम बनाएं। डेटा प्रोसेसिंग से डिप्लॉयमेंट तक वन-क्लिक सॉल्यूशन, सरल कोड।....

Oct 14, 2025

सबसे नए संस्करण में घरेलू सीधा Sora2 बिना जाल के मुफ्त उपयोग के निर्देश

OpenAI ने Sora2 जारी किया, पांच दिन में डाउनलोड मिलियन से अधिक हो गए, App Store मुफ्त चार्ट में शीर्ष पर पहुंच गए, GPT के तुलना में गति अधिक है। पिछले वर्जन की तुलना में, शब्दों के अर्थ की समझ में महत्वपूर्ण सुधार हुआ है, सरल प्रेरणा शब्दों के आधार पर ध्वनि और छवि समायोजित पूर्ण वीडियो बनाने में सक्षम है, हाथ से ध्वनि या संगीत जोड़ने की आवश्यकता नहीं है, संक्षिप्त वीडियो, विज्ञापन, संक्षिप्त नाटक, MV और एनीमेशन बनाने के लिए उपयोगी है।

Oct 13, 2025

उत्सर्जन असंगठित ग्राफ़िक्स छोड़ें, हांग कॉन्ग चाइनीज यूनिवर्सिटी के टीम ने पहला संरचनात्मक चित्र जनरेशन सिस्टम पेश किया!

हांग कॉन्ग चाइनीज यूनिवर्सिटी के MMLab ने बीजिंग हाईटेक यूनिवर्सिटी, शंघाई जियाओतोंग आदि के साथ मिलकर संरचनात्मक चित्र जनरेशन संपादन प्रणाली पेश की। इसने AI के चार्ट, सूत्र आदि संरचनात्मक चित्रों के जनरेशन में बाधाओं को तोड़ दिया। वर्तमान मॉडल जैसे FLUX.1 और GPT-Image नैसर्गिक चित्र जनरेशन में उत्कृष्ट प्रदर्शन करते हैं, लेकिन संरचनात्मक चित्रों के साथ काम करते समय डेटा की सटीकता और तार्किकता कम हो जाती है। इस सिस्टम ने इस तकनीकी खाई को भर दिया, जिससे AI के डेटा दृश्यीकरण क्षेत्र में विकास हुआ।

Oct 13, 2025

एंट ग्रुप ने 10 बिलियन पैरामीटर मॉडल लिंग-1टी लॉन्च किया, जो GPT-5 को पार करता है और एक नई संदर्भ बन जाता है

एंट ग्रुप ने लिंग-1टी मॉडल ओपन-सोर्स किया, जो एफपी8 ट्रेनिंग के साथ सबसे बड़ा बेस मॉडल है। यह लिंग2.0 परिवार का हिस्सा है, जिसमें लिंग, रिंग, मिंग श्रृंखलाएं शामिल हैं। लिंग श्रृंखला सामान्य कार्यों पर केंद्रित है।....

Oct 13, 2025

सिलिकॉन बेस्ड फ्लो में DeepSeek-V3.2-Exp लॉन्च हुआ, कीमत में निश्चित रूप से कमी हुई और बड़े संदर्भ का समर्थन किया गया

सिलिकॉन फ्लो ने DeepSeek-V3.2-Exp मॉडल लॉन्च किया, 160K कॉन्टेक्स्ट लंबाई, कीमत में 50% कमी। V3.1-Terminus पर आधारित, बेहतर प्रदर्शन।....

Oct 11, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

新智元

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

अलीबाबा टोंगयी क्वेन ने Qwen3-VL हल्का मॉडल लॉन्च किया: 4B और 8B पैरामीटर संस्करण कुशलता पहले 72B शीर्ष उत्पाद तक पहुँच गई

GPT-5 Pro भूले हुए गणितीय उत्तर ढूंढता है: एर्डोस समस्या #339 का समाधान पहले से ही 2003 में साबित कर दिया गया था

मेटा सुपर एआई प्रयोगशाला ने आरएजी तकनीक के बाधा को तोड़ा: रेफ्रैग फ्रेमवर्क ने तर्क की गति 30 गुना बढ़ा दी

सबसे नए संस्करण में घरेलू सीधा Sora2 बिना जाल के मुफ्त उपयोग के निर्देश

एंट ग्रुप ने 10 बिलियन पैरामीटर मॉडल लिंग-1टी लॉन्च किया, जो GPT-5 को पार करता है और एक नई संदर्भ बन जाता है

सिलिकॉन बेस्ड फ्लो में DeepSeek-V3.2-Exp लॉन्च हुआ, कीमत में निश्चित रूप से कमी हुई और बड़े संदर्भ का समर्थन किया गया

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Services​

AI Search Visibility Checker

AI Model Compatibility Checker

AI Dataset Collection

Intelligent Document Recognition

新智元

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

अलीबाबा टोंगयी क्वेन ने Qwen3-VL हल्का मॉडल लॉन्च किया: 4B और 8B पैरामीटर संस्करण कुशलता पहले 72B शीर्ष उत्पाद तक पहुँच गई

GPT-5 Pro भूले हुए गणितीय उत्तर ढूंढता है: एर्डोस समस्या #339 का समाधान पहले से ही 2003 में साबित कर दिया गया था

मेटा सुपर एआई प्रयोगशाला ने आरएजी तकनीक के बाधा को तोड़ा: रेफ्रैग फ्रेमवर्क ने तर्क की गति 30 गुना बढ़ा दी

सबसे नए संस्करण में घरेलू सीधा Sora2 बिना जाल के मुफ्त उपयोग के निर्देश

एंट ग्रुप ने 10 बिलियन पैरामीटर मॉडल लिंग-1टी लॉन्च किया, जो GPT-5 को पार करता है और एक नई संदर्भ बन जाता है

सिलिकॉन बेस्ड फ्लो में DeepSeek-V3.2-Exp लॉन्च हुआ, कीमत में निश्चित रूप से कमी हुई और बड़े संदर्भ का समर्थन किया गया

GEO Services