蘋果發佈LiTo模型,僅憑單張2D圖像即可重建高精度3D對象,解決了光影一致性難題,實現物理級真實感,有望顛覆3D重建領域。
谷歌爲Gemini 3 Flash模型推出“Agentic Vision”功能,突破傳統AI視覺模型“單次猜測”侷限。該功能使AI能主動探索圖像細節,通過深度推理分析複雜內容,如遠處路牌、電路圖或微小文字,有效解決以往因一次性全局處理導致的細節丟失問題,實現更接近人類專家的圖像理解能力。
微軟11月29日向Windows 11 Copilot用戶推送更新:免費開放GPT-5.1模型,一鍵啓用原付費“Think Deeper”深度推理功能。新增“Labs”實驗區,首批上線WinUI 3“Vision”實時畫面解析組件,後續將逐步加入3D生成、音頻表達等功能。“Actions”特性正在內測中。
三星推出首款混合現實頭顯Galaxy XR,售價1799美元,僅爲蘋果Vision Pro一半。搭載雙Micro OLED屏,總像素2900萬,基於開放安卓XR平臺,以高性價比挑戰高端MR市場。
Decart Vision平臺利用AI實現圖像、視頻生成與編輯,無需等待創意產出。
VisionFX是一款AI創意工作室,利用先進的人工智能技術即時生成圖片、視頻、音樂、語音等。
將2D圖像轉換為沉浸式3D模型,用於遊戲資產和電子商務產品。
Portal by 20Vision是一個免費AI設計工具,可在幾秒鐘內轉換圖像和視頻。
Bytedance
$0.8
輸入tokens/百萬
$8
輸出tokens/百萬
256
上下文長度
Tencent
-
24
$3
$9
128
16
$1.5
$4.5
32
$18
6
Moonshot
$5
$20
$10
$30
131
$2
8
mitegvg
該模型是基於VideoMAE架構的暴力檢測模型,在Kinetics數據集預訓練的基礎上,針對暴力檢測任務進行了92輪微調。模型採用Vision Transformer架構,專門用於視頻內容分析,能夠識別視頻中的暴力行為。
birder-project
這是一個基於RoPE(旋轉位置編碼)的Vision Transformer模型,參數規模為150M,採用14x14的patch大小。該模型在約2100萬張圖像的多樣化數據集上進行了預訓練,可作為通用視覺特徵提取器使用。
timm
這是一個基於DINOv3架構的Vision Transformer圖像特徵編碼器,通過從7B參數的DINOv3 ViT模型在LVD-1689M數據集上進行知識蒸餾得到。該模型專門用於圖像特徵提取任務,具有強大的視覺表示能力。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的視覺語言模型,專注於光學字符識別(OCR)和文檔分析。該模型採用GGUF格式,支持多語言處理,具備出色的OCR精度和推理速度,適用於各種文檔處理場景。
John6666
Realistic Vision V5.1 是一個基於 Stable Diffusion XL 的文本到圖像生成模型,專注於生成高質量、逼真的人物肖像和場景圖像。該模型支持多種風格,包括寫實、動漫、遊戲等,能夠生成具有高度真實感的人物、女演員肖像以及動漫風格圖像。
facebook
DINOv3是Meta AI開發的一系列通用視覺基礎模型,無需微調就能在多種視覺任務中超越專門的先進模型。該模型採用Vision Transformer架構,在16.89億張網絡圖像上預訓練,能生成高質量的密集特徵,在圖像分類、分割、檢索等任務中表現出色。
CohereLabs
Cohere Labs Command A Vision是一個擁有1120億參數的企業級視覺語言模型,專為圖像理解任務優化,在保持高性能的同時具有較低的計算需求。該模型支持多語言輸入和輸出,能夠處理圖像和文本的多模態輸入。
Acly
BiRefNet是一個用於二分類圖像分割的深度學習模型,專門用於背景去除任務。該模型經過GGUF格式轉換,可在消費級硬件上通過vision.cpp進行輕量級推理,實現高效的圖像分割處理。
prithivMLmods
基於Qwen2.5-VL-3B-Instruct微調的視覺OCR模型,專注於文檔級OCR、長上下文視覺語言理解和數學LaTeX格式轉換
Ricky06662
VisionReasoner是基於強化學習的統一視覺感知與推理模型,通過強化學習框架將視覺感知和推理任務整合到一個統一的系統中,為視覺領域的複雜任務提供了創新的解決方案。
VisionReasoner-7B是一個圖像文本到文本的模型,採用解耦架構,由推理模型和分割模型組成,能解讀用戶意圖並生成像素級掩碼。
p1atdev
基於Vision Transformer架構的視覺模型,採用SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法,適用於圖像理解任務。
ISxOdin
基於Google Vision Transformer (ViT)微調的寵物品種分類模型,在Oxford-IIIT寵物數據集上達到94.45%準確率
UCSC-VLAA
VLAA-Thinker是一個創新的視覺語言模型,能夠同時處理圖像和文本輸入,並生成高質量的文本輸出。該模型基於論文《SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models》的研究成果開發,專注於類似R1的推理能力。
tue-mps
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,展示了ViT在圖像分割任務中的潛力。
該論文提出了一種將Vision Transformer (ViT) 重新解釋為圖像分割模型的方法,揭示了ViT在圖像分割任務中的潛力。
該論文提出了一種基於Vision Transformer (ViT) 的圖像分割模型,揭示了ViT在圖像分割任務中的潛力。
該模型揭示了Vision Transformer (ViT) 在圖像分割任務中的潛力,通過特定架構調整使其適用於分割任務。
該論文提出的模型揭示了Vision Transformer (ViT)在圖像分割任務中的潛在能力。
MCP Vision Relay 是一個 MCP 服務器,通過封裝本地安裝的 Gemini 和 Qwen 命令行工具,為 Claude、Codex 等僅支持文本的 MCP 客戶端提供圖像分析能力,使其能夠處理本地路徑、URL 或 base64 編碼的圖片。
展示計算機視覺工具與語言模型通過MCP的集成
YOLO MCP服務是一個強大的計算機視覺服務,通過模型上下文協議(MCP)與Claude AI集成,提供物體檢測、分割、分類和即時攝像頭分析功能。
基於Google Gemini Vision API的YouTube視頻分析MCP服務,提供視頻描述、摘要、問答和關鍵片段提取功能。
Orion Vision MCP服務器是一個基於Model Context Protocol(MCP)的開源項目,提供與Azure文檔智能服務的無縫集成,支持多種文檔類型的分析和數據提取功能。
一個用於Microsoft OneNote的MCP服務器,允許AI代理讀取、創建和分析OneNote筆記本、分區和頁面,包括通過Claude Vision自動提取圖像中的文本內容。
一個基於MCP協議的服務器,可通過Nature Vision API識別圖像中的生物物種(如植物、動物、真菌等),並返回拉丁學名和置信度,旨在為LLM提供物種識別工具。
專為AI視覺工作流優化的網頁截圖工具,自動分塊為1072x1072像素以適應Claude Vision API處理需求