先日、腾讯混元T1-Visionは「元宝」というサービスをリリースしました。「元宝」は独自のHunyuan T1-Visionモデルを通じて、画像コンテンツを深層的に理解し、情報背後にある重要なポイントを正確にキャッチできます。ユーザーは画像を撮影してアップロードするだけでよく、例として、珍しい植物の品種、複雑な外国語のゲームインターフェース、または深い分析が必要な意思決定のシナリオなどがあります。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
-
Anthropic
$21
$105
200
Alibaba
Baidu
32
$54
$163
Tencent
$1.6
$4
128
$15
Bytedance
$0.8
$8
256
Xai
$0.5
$2
224
Google
$8.75
$70
$1
$3
4
$525
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
シンガポール陸路交通管理局(LTA)のMCPサーバーで、リアルタイムの交通データAPIインターフェースを提供します。バスの到着、地下鉄の混雑度、駐車場の空き状況などの情報が含まれます。
北京の観光に関するリアルタイム情報を提供します。観光名所の混雑状況、公演や展覧会、外国人観光ガイドなどのサービスを含みます。