最好的Vision AI工具模型_精選Vision資訊 - AIBase

AI資訊

Win11 Copilot 直接送“滿血”GPT-5.1，深度思考功能免費解鎖！

微軟11月29日向Windows 11 Copilot用戶推送更新：免費開放GPT-5.1模型，一鍵啓用原付費“Think Deeper”深度推理功能。新增“Labs”實驗區，首批上線WinUI 3“Vision”實時畫面解析組件，後續將逐步加入3D生成、音頻表達等功能。“Actions”特性正在內測中。

12.2k 16 小時前

Win11 Copilot 直接送“滿血”GPT-5.1，深度思考功能免費解鎖！

三星 Galaxy XR 頭顯正式登場：1799 美元起，性能對標 Vision Pro，重量更輕、生態更開放

三星推出首款混合現實頭顯Galaxy XR，售價1799美元，僅爲蘋果Vision Pro一半。搭載雙Micro OLED屏，總像素2900萬，基於開放安卓XR平臺，以高性價比挑戰高端MR市場。

三星 Galaxy XR 頭顯正式登場：1799 美元起，性能對標 Vision Pro，重量更輕、生態更開放

蘋果未來智能眼鏡或採用雙重用戶界面，輕量級模式適配 iPhone

蘋果正研發輕便智能眼鏡，採用雙界面設計，可能運行visionOS系統，界面會根據配對設備調整。這印證了資源從Vision Pro轉向更便攜產品的傳聞。

蘋果未來智能眼鏡或採用雙重用戶界面，輕量級模式適配 iPhone

企業搜索技術大比拼:視覺檢索增強生成（Vision-RAG）VS 文本檢索增強生成(Text-RAG)

視覺檢索增強生成（Vision-RAG）與文本檢索增強生成（Text-RAG）在企業信息檢索中的對比研究顯示，Text-RAG需先將PDF轉爲文本再嵌入索引，但OCR技術常導致轉換不準確，影響檢索效率。Vision-RAG則直接處理視覺信息，可能更高效。研究揭示了兩種方法在應對海量文檔時的優缺點，爲企業優化搜索策略提供參考。

10.4k 22 小時前

企業搜索技術大比拼:視覺檢索增強生成（Vision-RAG）VS 文本檢索增強生成(Text-RAG)

AI產品

Lucy Edit by Decart

Lucy Edit by Decart

Decart Vision平臺利用AI實現圖像、視頻生成與編輯，無需等待創意產出。

VisionFX

VisionFX

VisionFX是一款AI創意工作室，利用先進的人工智能技術即時生成圖片、視頻、音樂、語音等。

VisionAR

VisionAR

將2D圖像轉換為沉浸式3D模型，用於遊戲資產和電子商務產品。

Portal by 20Vision

Portal by 20Vision

Portal by 20Vision是一個免費AI設計工具，可在幾秒鐘內轉換圖像和視頻。

模型

Doubao-Seed-1.6-vision

Bytedance

Doubao-Seed-1.6-vision

$0.8

輸入tokens/百萬

$8

輸出tokens/百萬

256

上下文長度

Hunyuan-Large-Vision

Tencent

Hunyuan-Large-Vision

-

輸入tokens/百萬

-

輸出tokens/百萬

24

上下文長度

Doubao-1.5-thinking-vision-pro

Bytedance

Doubao-1.5-thinking-vision-pro

$3

輸入tokens/百萬

$9

輸出tokens/百萬

128

上下文長度

Hunyuan-T1-Vision

Tencent

Hunyuan-T1-Vision

$3

輸入tokens/百萬

$9

輸出tokens/百萬

16

上下文長度

Hunyuan-TurboS-Vision

Tencent

Hunyuan-TurboS-Vision

$3

輸入tokens/百萬

$9

輸出tokens/百萬

16

上下文長度

Doubao-1.5-vision-pro-32k

Bytedance

Doubao-1.5-vision-pro-32k

$3

輸入tokens/百萬

$9

輸出tokens/百萬

32

上下文長度

Doubao-1.5-vision-lite

Bytedance

Doubao-1.5-vision-lite

$1.5

輸入tokens/百萬

$4.5

輸出tokens/百萬

128

上下文長度

Hunyuan-Vision

Tencent

Hunyuan-Vision

$18

輸入tokens/百萬

$18

輸出tokens/百萬

6

上下文長度

Hunyuan-Standard-Vision

Tencent

Hunyuan-Standard-Vision

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

Hunyuan-Lite-Vision

Tencent

Hunyuan-Lite-Vision

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

moonshot-v1-32k-vision-preview

Moonshot

moonshot-v1-32k-vision-preview

$5

輸入tokens/百萬

$20

輸出tokens/百萬

32

上下文長度

moonshot-v1-8k-vision-preview

Moonshot

moonshot-v1-8k-vision-preview

$2

輸入tokens/百萬

$10

輸出tokens/百萬

8

上下文長度

moonshot-v1-128k-vision-preview

Moonshot

moonshot-v1-128k-vision-preview

$10

輸入tokens/百萬

$30

輸出tokens/百萬

131

上下文長度

Doubao-1.5-vision-pro

Bytedance

Doubao-1.5-vision-pro

$3

輸入tokens/百萬

$9

輸出tokens/百萬

128

上下文長度

MCP

mcp-vision-relay

Mcp Vision Relay

MCP Vision Relay 是一個 MCP 服務器，通過封裝本地安裝的 Gemini 和 Qwen 命令行工具，為 Claude、Codex 等僅支持文本的 MCP 客戶端提供圖像分析能力，使其能夠處理本地路徑、URL 或 base64 編碼的圖片。

Computer Vision Tools

Computer Vision Tools

展示計算機視覺工具與語言模型通過MCP的集成

YOLO Computer Vision

YOLO Computer Vision

YOLO MCP服務是一個強大的計算機視覺服務，通過模型上下文協議(MCP)與Claude AI集成，提供物體檢測、分割、分類和即時攝像頭分析功能。

youtube-vision

Youtube Vision

基於Google Gemini Vision API的YouTube視頻分析MCP服務，提供視頻描述、摘要、問答和關鍵片段提取功能。

Orion Vision (Azure Form Recognizer)

Orion Vision (Azure Form Recognizer)

Orion Vision MCP服務器是一個基於Model Context Protocol（MCP）的開源項目，提供與Azure文檔智能服務的無縫集成，支持多種文檔類型的分析和數據提取功能。

mcp-screenshot-website-fast

Mcp Screenshot Website Fast

專為AI視覺工作流優化的網頁截圖工具，自動分塊為1072x1072像素以適應Claude Vision API處理需求

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖