最好的Vision Language Model AI工具模型_精選Vision Language Model資訊

AI資訊

淘天推出創新對齊方法，解決視覺大模型中的幻覺問題

近年來，視覺大模型（Large Vision Language Models， LVLMs）在圖像理解和跨模態任務中展現出非凡的能力，然而隨之而來的 “幻覺現象” 問題也日益突出。爲了應對這一挑戰，淘天集團的未來生活實驗室團隊提出了一種名爲 “令牌偏好優化”(Token Preference Optimization，簡稱 TPO)的新方法，並引入了一種自我校準的視覺錨定獎勵機制。TPO 的最大創新在於它實現了自動化的令牌級獎勵信號。這一方法能夠自動識別偏好數據中的視覺錨定令牌，避免了人工細粒度標註的繁瑣，同時在訓練過程中爲每個令

12.8k 3 天前

模型

Doubao-Seed-1.6-vision

Bytedance

$0.8

輸入tokens/百萬

輸出tokens/百萬

256

上下文長度

Hunyuan-Large-Vision

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Doubao-1.5-thinking-vision-pro

Bytedance

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Hunyuan-T1-Vision

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Hunyuan-TurboS-Vision

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Doubao-1.5-vision-lite

Bytedance

$1.5

輸入tokens/百萬

$4.5

輸出tokens/百萬

128

上下文長度

Doubao-1.5-vision-pro-32k

Bytedance

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Hunyuan-Vision

Tencent

$18

輸入tokens/百萬

$18

輸出tokens/百萬

上下文長度

Hunyuan-Standard-Vision

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Hunyuan-Lite-Vision

Tencent

輸入tokens/百萬

輸出tokens/百萬

上下文長度

moonshot-v1-32k-vision-preview

Moonshot

輸入tokens/百萬

$20

輸出tokens/百萬

上下文長度

moonshot-v1-128k-vision-preview

Moonshot

$10

輸入tokens/百萬

$30

輸出tokens/百萬

131

上下文長度

moonshot-v1-8k-vision-preview

Moonshot

輸入tokens/百萬

$10

輸出tokens/百萬

上下文長度

Doubao-1.5-vision-pro

Bytedance

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖