微軟11月29日向Windows 11 Copilot用戶推送更新:免費開放GPT-5.1模型,一鍵啓用原付費“Think Deeper”深度推理功能。新增“Labs”實驗區,首批上線WinUI 3“Vision”實時畫面解析組件,後續將逐步加入3D生成、音頻表達等功能。“Actions”特性正在內測中。
三星推出首款混合現實頭顯Galaxy XR,售價1799美元,僅爲蘋果Vision Pro一半。搭載雙Micro OLED屏,總像素2900萬,基於開放安卓XR平臺,以高性價比挑戰高端MR市場。
蘋果正研發輕便智能眼鏡,採用雙界面設計,可能運行visionOS系統,界面會根據配對設備調整。這印證了資源從Vision Pro轉向更便攜產品的傳聞。
視覺檢索增強生成(Vision-RAG)與文本檢索增強生成(Text-RAG)在企業信息檢索中的對比研究顯示,Text-RAG需先將PDF轉爲文本再嵌入索引,但OCR技術常導致轉換不準確,影響檢索效率。Vision-RAG則直接處理視覺信息,可能更高效。研究揭示了兩種方法在應對海量文檔時的優缺點,爲企業優化搜索策略提供參考。
Decart Vision平臺利用AI實現圖像、視頻生成與編輯,無需等待創意產出。
VisionFX是一款AI創意工作室,利用先進的人工智能技術即時生成圖片、視頻、音樂、語音等。
將2D圖像轉換為沉浸式3D模型,用於遊戲資產和電子商務產品。
Portal by 20Vision是一個免費AI設計工具,可在幾秒鐘內轉換圖像和視頻。
Bytedance
$0.8
輸入tokens/百萬
$8
輸出tokens/百萬
256
上下文長度
Tencent
-
24
$3
$9
128
16
32
$1.5
$4.5
$18
6
Moonshot
$5
$20
$2
$10
8
$30
131
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
birder-project
這是一個基於RoPE(旋轉位置編碼)的Vision Transformer模型,參數規模為150M,採用14x14的patch大小。該模型在約2100萬張圖像的多樣化數據集上進行了預訓練,可作為通用視覺特徵提取器使用。
timm
這是一個基於DINOv3架構的Vision Transformer圖像特徵編碼器,通過從7B參數的DINOv3 ViT模型在LVD-1689M數據集上進行知識蒸餾得到。該模型專門用於圖像特徵提取任務,具有強大的視覺表示能力。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的視覺語言模型,專注於光學字符識別(OCR)和文檔分析。該模型採用GGUF格式,支持多語言處理,具備出色的OCR精度和推理速度,適用於各種文檔處理場景。
John6666
Realistic Vision V5.1 是一個基於 Stable Diffusion XL 的文本到圖像生成模型,專注於生成高質量、逼真的人物肖像和場景圖像。該模型支持多種風格,包括寫實、動漫、遊戲等,能夠生成具有高度真實感的人物、女演員肖像以及動漫風格圖像。
facebook
DINOv3是Meta AI開發的一系列通用視覺基礎模型,無需微調就能在多種視覺任務中超越專門的先進模型。該模型採用Vision Transformer架構,在16.89億張網絡圖像上預訓練,能生成高質量的密集特徵,在圖像分類、分割、檢索等任務中表現出色。
CohereLabs
Cohere Labs Command A Vision是一個擁有1120億參數的企業級視覺語言模型,專為圖像理解任務優化,在保持高性能的同時具有較低的計算需求。該模型支持多語言輸入和輸出,能夠處理圖像和文本的多模態輸入。
Acly
BiRefNet是一個用於二分類圖像分割的深度學習模型,專門用於背景去除任務。該模型經過GGUF格式轉換,可在消費級硬件上通過vision.cpp進行輕量級推理,實現高效的圖像分割處理。
prithivMLmods
基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型,專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換
Ricky06662
VisionReasoner是基於強化學習的統一視覺感知與推理模型,通過強化學習框架將視覺感知和推理任務整合到一個統一的系統中,為視覺領域的複雜任務提供了創新的解決方案。
VisionReasoner-7B是一個圖像文本到文本的模型,採用解耦架構,由推理模型和分割模型組成,能解讀用戶意圖並生成像素級掩碼。
p1atdev
基於Vision Transformer架構的視覺模型,採用SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法,適用於圖像理解任務。
ISxOdin
基於Google Vision Transformer (ViT)微調的寵物品種分類模型,在Oxford-IIIT寵物數據集上達到94.45%準確率
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
tue-mps
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,揭示了ViT在圖像分割任務中的潛力。
該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型,揭示了ViT在圖像分割任務中的潛力。
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
該論文提出的模型揭示了Vision Transformer (ViT)在圖像分割任務中的潛在能力。
MCP Vision Relay 是一個 MCP 服務器,通過封裝本地安裝的 Gemini 和 Qwen 命令行工具,為 Claude、Codex 等僅支持文本的 MCP 客戶端提供圖像分析能力,使其能夠處理本地路徑、URL 或 base64 編碼的圖片。
展示計算機視覺工具與語言模型通過MCP的集成
YOLO MCP服務是一個強大的計算機視覺服務,通過模型上下文協議(MCP)與Claude AI集成,提供物體檢測、分割、分類和即時攝像頭分析功能。
基於Google Gemini Vision API的YouTube視頻分析MCP服務,提供視頻描述、摘要、問答和關鍵片段提取功能。
Orion Vision MCP服務器是一個基於Model Context Protocol(MCP)的開源項目,提供與Azure文檔智能服務的無縫集成,支持多種文檔類型的分析和數據提取功能。
專為AI視覺工作流優化的網頁截圖工具,自動分塊為1072x1072像素以適應Claude Vision API處理需求