माइक्रोसॉफ्ट Azure AI ने MM-Vid पेश किया, जो GPT-4V और विशेष उपकरणों को एकीकृत करता है, लंबे वीडियो की व्याख्या करता है और दृष्टिहीन लोगों के लिए बेहतर अनुभव प्रदान करता है। MM-Vid मल्टीमॉडल समझ, सतत कथानक और अन्य महत्वपूर्ण मॉड्यूल के माध्यम से वास्तविक दुनिया के वीडियो को व्यापक रूप से समझता है। प्रयोगों ने प्रश्न-उत्तर, व्यक्ति पहचान जैसे कार्यों में उत्कृष्ट प्रदर्शन साबित किया है, और यह निरंतर स्ट्रीमिंग वीडियो फ़्रेम इनपुट प्राप्त करने की क्षमता रखता है। यह नवाचार बड़े मल्टीमॉडल मॉडल के क्षेत्र में विकास को आगे बढ़ाने की उम्मीद है, वीडियो समझने के लिए एक मजबूत समाधान प्रदान करता है। GPT-4V का सफल एकीकरण सामान्य वीडियो समझने की जरूरतों और दृष्टिहीन लोगों के लिए...