Windows 11 Copilot向けにGPT-5.1モデルを無償提供。有料機能「Think Deeper」も無料化。新設「Labs」実験エリアでWinUI 3「Vision」画面解析を開始し、3D生成・音声機能を順次追加予定。「Actions」機能はテスト中。....
サムスンが初のMRヘッドセットGalaxy XRを発売、価格は1799ドルでApple Vision Proの半額。デュアルMicro OLED搭載、総画素2900万、Android XRプラットフォーム採用で高コストパフォーマンスを実現。....
Appleは軽量スマートグラスを開発中。デュアルインターフェイス設計でvisionOSを搭載、ペアリング機器に応じてUIが調整可能。Vision Proからよりポータブルな製品へリソースシフトの噂を裏付ける内容。....
ビジョンRAGとテキストRAGの比較研究。テキストRAGはPDFをテキスト変換する際にOCR精度の問題あり。ビジョンRAGは視覚情報を直接処理可能で効率的。企業の文書検索最適化に有用な知見を提供。....
Decart VisionプラットフォームはAIを利用して画像やビデオの生成と編集を行い、クリエイティブなアウトプットを待つ必要がありません。
2D画像を没入型の3Dモデルに変換し、ゲームアセットや電子商取引の商品に利用します。
20Visionによるポータルは、画像と動画を数秒で変換できる無料のAIデザインツールです。
VisionFXは、先進的な人工知能技術を利用して、画像、ビデオ、音楽、音声などを即座に生成するAIクリエイティブスタジオです。
Bytedance
$0.8
入力トークン/百万
$8
出力トークン/百万
256
コンテキスト長
Tencent
-
24
$3
$9
128
16
32
$1.5
$4.5
$18
6
Moonshot
$2
$10
8
$5
$20
$30
131
mitegvg
このモデルはVideoMAEアーキテクチャに基づく暴力検出モデルで、Kineticsデータセットで事前学習した後、暴力検出タスクに対して92エポックの微調整を行っています。モデルはVision Transformerアーキテクチャを採用し、ビデオコンテンツ分析に特化しており、ビデオ内の暴力行為を識別することができます。
birder-project
これはRoPE(回転位置符号化)に基づくVision Transformerモデルで、パラメータ規模は150Mで、14x14のパッチサイズを採用しています。このモデルは約2100万枚の画像からなる多様なデータセットで事前学習されており、汎用的なビジュアル特徴抽出器として使用できます。
timm
これはDINOv3アーキテクチャに基づくVision Transformer画像特徴エンコーダで、7BパラメータのDINOv3 ViTモデルからLVD-1689Mデータセットで知識蒸留を行って得られました。このモデルは画像特徴抽出タスクに特化しており、強力なビジュアル表現能力を持っています。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUFは、光学文字認識(OCR)とドキュメント分析に特化した高性能なビジュアル言語モデルです。このモデルはGGUF形式を採用し、多言語処理をサポートし、優れたOCR精度と推論速度を備えており、さまざまなドキュメント処理シーンに適しています。
Kakyoin03
このモデルは、Llama - 3.2 - 11B - Vision - Instructを微調整した専門の自動車損傷検出モデルで、損傷した車両の画像を自動分析し、車両の損傷タイプ、位置、深刻度を正確に識別および記述することができます。
John6666
Realistic Vision V5.1は、Stable Diffusion XLに基づくテキストから画像への生成モデルで、高品質でリアルな人物肖像やシーン画像の生成に特化しています。このモデルは、リアル、アニメ、ゲームなどの多様なスタイルをサポートし、高度なリアリティを持つ人物、女優の肖像やアニメスタイルの画像を生成することができます。
facebook
DINOv3はMeta AIが開発した一連の汎用ビジュアル基礎モデルで、微調整を行わずにさまざまなビジュアルタスクで専用の最先端モデルを上回ることができます。このモデルはVision Transformerアーキテクチャを採用し、16.89億枚のウェブ画像で事前学習されており、高品質の密集特徴を生成でき、画像分類、セグメンテーション、検索などのタスクで優れた性能を発揮します。
CohereLabs
Cohere Labs Command A Visionは、1120億のパラメータを持つ企業レベルの視覚言語モデルで、画像理解タスクに最適化されており、高いパフォーマンスを維持しながら低い計算要件を持っています。このモデルは多言語の入出力をサポートし、画像とテキストのマルチモーダル入力を処理できます。
Acly
BiRefNetは二値分類画像分割に使用されるディープラーニングモデルで、背景除去タスクに特化しています。このモデルはGGUF形式に変換され、vision.cppを通じて消費者向けハードウェアで軽量推論を行い、効率的な画像分割処理を実現できます。
OptimusePrime
Magistral - Small - 2506 - Visionは、Mistral Small 3.1をベースにGRPOトレーニングを行った推論微調整バージョンで、ビジュアル能力を備えた実験的チェックポイントです。
prithivMLmods
Qwen2.5-VL-3B-Instructをベースに微調整されたビジュアルOCRモデルで、ドキュメントレベルのOCR、長文脈の視覚言語理解、数学のLaTeX形式変換に特化しています。
Ricky06662
VisionReasonerは強化学習に基づく統一視覚知覚と推論モデルで、強化学習フレームワークを通じて視覚知覚と推論タスクを統一システムに統合し、視覚分野の複雑なタスクに革新的な解決策を提供します。
VisionReasoner-7Bは画像テキストからテキストへのモデルで、解耦アーキテクチャを採用し、推論モデルと分割モデルで構成され、ユーザーの意図を解釈してピクセルレベルのマスクを生成できます。
これはDINOv2自己教師あり学習により20億のウェブ画像でトレーニングされた10億パラメータのVision Transformerモデルで、言語監督なしで視覚表現を学習できます。
p1atdev
Vision Transformerアーキテクチャに基づく視覚モデルで、SigLIP(Sigmoid Loss for Language-Image Pretraining)訓練方法を採用し、画像理解タスクに適しています。
Freepik
NSFWコンテンツのレーティングに特化してファインチューニングされたVision Transformerモデルで、ニュートラル/軽度/中度/重度の4段階のリスクを識別可能
SangjeHwang
google/vit-base-patch16-224-in21kをbeansデータセットでファインチューニングしたVision Transformerモデル、画像分類タスク用
ISxOdin
Google Vision Transformer (ViT)をファインチューニングしたペット品種分類モデルで、Oxford-IIITペットデータセットで94.45%の精度を達成
UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。
tue-mps
この論文は、Vision Transformer (ViT) を画像セグメンテーションモデルとして再解釈する方法を提案し、ViTが画像セグメンテーションタスクで持つ可能性を示しています。
YOLO MCPサービスは、強力なコンピュータビジョンサービスで、モデルコンテキストプロトコル(MCP)を通じてClaude AIと統合され、物体検出、セグメンテーション、分類、リアルタイムカメラ分析機能を提供します。
MCP Vision Relayは、ローカルにインストールされたGeminiとQwenのコマンドラインツールをラッピングすることで、ClaudeやCodexなどのテキストのみをサポートするMCPクライアントに画像分析機能を提供するMCPサーバーです。ローカルパス、URL、またはbase64エンコードされた画像を処理できます。
コンピュータビジョンツールと言語モデルのMCPによる統合を展示
Google Gemini Vision APIを基にしたYouTube動画分析のMCPサービスで、動画の説明、要約、質問応答、重要シーンの抽出機能を提供します。
Orion Vision MCPサーバーは、Model Context Protocol(MCP)に基づくオープンソースプロジェクトで、Azureのドキュメントインテリジェンスサービスとシームレスに統合され、さまざまなドキュメントタイプの分析とデータ抽出機能を提供します。
AIビジョンワークフロー用に最適化されたウェブページのスクリーンショットツールで、Claude Vision APIの処理要件に合わせて1072x1072ピクセルに自動分割します。