コンピュータビジョンは「見る」から「理解・対話」へシフト。認識精度の追求は限界に達し、CVPR2026では視覚を推論・意思決定・対話の仲介役と位置付け、マルチモーダルモデルによる「思考連鎖」論理展開など、適応的・暗黙的アプローチが主流に。....
NVIDIAがオープンなマルチモーダルモデル「Nemotron 3 Nano Omni」を発表。ビデオ、音声、画像、テキスト推論を統合し、30B-A3B混合専門家アーキテクチャを採用。視覚・音声エンコーダーを内蔵し、追加の知覚モデル不要で大規模推論効率を大幅向上。複雑なテキスト処理などで優れた性能を発揮。....
商湯科技は日日新 SenseNova U1シリーズモデルを発表し、オープンソースしました。独自の NEO-unify アーキテクチャに基づき、マルチモーダルな理解、推論、生成の深い統一を実現し、統合型からネイティブな統一への飛躍を示しています。このアーキテクチャは接続式設計を避け、視覚エンコーダーおよび変分自己符号化器を取り除くことで、モデルの効率とパフォーマンスを向上させました。
NVIDIAがオープンなマルチモーダル大規模モデル「Nemotron3Nano Omni」を発表。ビデオ、オーディオ、画像、テキストの深い推論を統合し、30B-A3B混合エキスパートアーキテクチャを採用。視覚・音声エンコーダーを内蔵し、開発者向けに高速でスマートな対話応答を実現する。....
世界初の全モーダリティ推論プラットフォームで、統一APIで300以上のモデルにアクセスでき、OpenAIと互換性があります。
Google DeepMindの旗艦的なマルチモーダルAIで、100万トークンのコンテキストを持ち、博士レベルの推論能力と高度なコーディング能力を備えています。
世界初の推論インテリジェンスと16ビットHDR出力を備えたAIビデオモデルで、効率的かつ専門的な創作が可能です。
世界初の推論AI動画モデルであるRay3は、テキストプロンプトから4K HDR動画を作成できます。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
drbaph
Z-Image(造相)は60億のパラメータを持つ高効率な画像生成基礎モデルで、画像生成分野の効率と品質の問題を専門的に解決します。その蒸留バージョンであるZ-Image-Turboは、たった8回の関数評価でリーディングな競合モデルに匹敵するか、それを上回る性能を発揮し、企業用のH800 GPUでは亚秒級の推論遅延を実現し、16G VRAMの消費者向けデバイスでも動作します。
T5B
Z-Image-Turboは、FP8 E5M2とE4M3FN形式で量子化された画像処理モデルで、元のTongyi-MAI/Z-Image-Turboモデルを最適化し、性能を維持しながらモデルサイズと推論リソースの要件を大幅に削減します。
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
silveroxides
black-forest-labs/FLUX.2-devをベースに最適化された画像生成モデルで、画像から画像への生成と編集タスクをサポートし、fp8_scaled量子化技術を採用して推論速度を向上させ、低VRAMのGPUでの使用に特に適しています。
bartowski
これはsqu11z1のHypnos-i1-8Bモデルの量子化バージョンで、llama.cppツールと特定のデータセットを使用して量子化処理が行われています。このモデルはLlama-3アーキテクチャに基づいており、複数の量子化タイプを提供し、テキスト生成タスクをサポートし、推論や対話などの様々なアプリケーションシーンに適しています。
nightmedia
これは実験的な量子化大規模言語モデルで、Deckard(qx)量子化方法を採用し、埋め込み層は3ビット量子化です。このモデルはノルム保持双投影除去(NPBA)技術によって再構築され、セキュリティ制限メカニズムを削除するだけでなく、モデルの認知深度と推論能力を強化しています。
lightx2v
このリポジトリには、HunyuanVideo-1.5用に最適化された4ステップ蒸留モデルが含まれています。このモデルは、CFG(分類器なしガイダンス)を使用せずに、超高速の4ステップ推論を実現し、生成時間を大幅に削減すると同時に、高品質のビデオ出力を維持します。
noctrex
これはHuihui-MiroThinker-v1.0-30Bモデルに基づいて行われたMXFP4_MOE imatrix量子化バージョンで、テキスト生成タスクに特化して最適化されており、モデルの性能を維持しながら、モデルのサイズと推論コストを大幅に削減しています。
squ11z1
Hypnos i1-8BはNous Hermes 3(Llama 3.1 8B)に基づく専門的な推論モデルで、複雑な論理、思考連鎖推論、数学問題の求解に特化しています。このモデルは、混合量子 - 古典機械学習の分野で独自の探求を行い、量子ノイズ注入を導入することで、モデルの創造力と推論能力を向上させています。
prithivMLmods
Olmo-3-Thinkはアレン人工知能研究所が発表した完全にオープンソースの言語モデルシリーズで、7Bと32Bの2種類の規模があります。このモデルは特別に訓練され、明確な推論過程を示すことができ、透明な段階的な推論と検証可能な中間思考痕跡をサポートし、推論、数学、コードタスクで優れた性能を発揮します。
Kiy-K
Fyodor-Q3-8B-Instructは、スマート推論と堅牢なコード生成のために設計された高忠実度の命令調整モデルです。Qwen3 - 8Bアーキテクチャに基づき、高ランクのLoRA設定で訓練されており、コーディング前の計画立案に長けており、複雑なソフトウェアエンジニアリングタスクに非常に適しています。
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
MaziyarPanahi
このプロジェクトでは、Qwen3-4B-Thinking-2507モデルのGGUF形式のファイルを提供しています。これは、思考過程推論能力を持つ4Bパラメータの大規模言語モデルで、複数の量子化バージョンをサポートし、さまざまなハードウェアでのデプロイと実行が容易です。
Nanbeige
楠米色4-3B-思考-2511は楠米色シリーズの最新の強化バージョンで、高度な蒸留技術と強化学習による最適化を通じて、コンパクトな3Bパラメータ規模で強力な推論能力を実現しています。このモデルはArena-Hard-V2やBFCL-V4などのベンチマークテストで、パラメータが32B未満のモデルの中で最先端(SOTA)の成果を達成しています。
mratsim
GLM-4.5-Iceblink-v2-106B-A12B-FP8は、GLM-4.5-Iceblink-v2-106B-A12Bモデルをベースに、最先端の混合エキスパート量子化方法を用いてFP8量子化したバージョンです。このモデルは、ハードウェアFP8をサポートするAda、Hopper、またはBlackwellシリーズのGPUに特化して最適化されており、高品質な出力を維持しながら推論効率を大幅に向上させます。
mradermacher
Diver-GroupRank-7Bは、段落の並べ替え、テキストの並べ替え、推論、および情報検索に特化した7Bパラメータのモデルです。このバージョンは、さまざまなハードウェアや性能要件に対応するため、複数の量化形式を提供します。
AQ-MedAI/Diver-GroupRank-7Bモデルに基づく静的量子化バージョンで、段落の並べ替え、テキストの並べ替え、推論、情報検索などのタスクに特化しています。さまざまなハードウェア要件に対応するため、複数の量子化レベルを提供します。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
allenai
Olmo 3は、Allen Institute for AIによって開発された次世代の言語モデルファミリーで、7Bと32Bの指令と思考のバリエーションを含んでいます。このモデルは、長鎖思考において優れた性能を発揮し、数学やコーディングなどの推論タスクの性能を大幅に向上させます。すべてのコード、チェックポイント、およびトレーニングの詳細は公開され、言語モデル科学の発展を促進します。
Olmo 3は、Allen Institute for AIによって開発された次世代の言語モデルシリーズで、7Bと32Bの2種類の規模があり、命令型と思考型の2種類のバリエーションがあります。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで事後学習され、長い連鎖的な思考能力を備えており、数学やコーディングなどの推論タスクで優れた性能を発揮します。
Perplexity MCP Serverは、PerplexityのAIモデルを利用して、クエリの複雑度を自動的に分析し、最適なモデルを選択してリクエストを処理するインテリジェントな研究アシスタントです。検索、推論、深掘り研究の3種類のツールをサポートしています。
Perplexity MCP Serverは、PerplexityのAIモデルを利用して、自動クエリ複雑度検出と最適なモデルルーティング機能を提供するインテリジェントな研究アシスタントで、検索、推論、深度研究の3種類のツールをサポートしています。
MCP-Logicは、MCPプロトコルに基づく論理推論サーバーで、AIシステムに自動定理証明とモデル検証機能を提供します。
Auto Causal Inferenceは、大規模言語モデル(LLM)を利用して自動的に因果推論を行うプロジェクトです。ユーザーは介入変数と結果変数を指定するだけで、システムが自動的に変数の役割識別、因果グラフの構築、効果推定、モデル検証などの全プロセスの分析を完了します。プロジェクトは2種類のエージェントアーキテクチャ(LangGraphとMCP)を提供してこの機能を実現し、特に銀行シナリオの因果問題分析に適しています。
MindBridgeはAIモデルルーターサーバーで、複数のLLMプロバイダーをサポートし、スマートなモデルスケジューリングと協調を実現し、複雑な推論タスクや多モデルワークフローに適しています。
MCP論理ソルバーは、大型言語モデルと形式化定理証明能力を組み合わせた強力な推論システムで、自然言語と一階論理入力をサポートし、Prover9/Mace4を通じて自動検証を行い、構造化推論と説明を提供します。
ローカルの大規模言語モデルとMCPサーバーを接続するTypeScriptブリッジプロジェクトで、Webインターフェイスを通じてオープンソースモデルがClaudeのようなツール機能を使用できるようにし、ファイルシステム、ウェブ検索、複雑な推論などの機能をサポートします。
mirror-mcpはモデルコンテキストプロトコル(MCP)に基づくサーバーで、'reflect'ツールを提供し、大規模言語モデルが再帰的な質問とMCPサンプリングを通じて自己省察と内省を行い、自己分析、推論検証、反復的な問題解決を実現します。
MCP Thought Serverは、AIエージェントに高度な思考ツールを提供するサービスで、モデルコンテキストプロトコル(MCP)を通じて推論、計画、反復最適化能力を強化します。構造化思考、反復草稿、および統合思考などのツールを含み、SQLiteの永続化と高度な信頼度評価システムをサポートし、さまざまなニーズに合わせて環境変数を構成できます。
Forge MCPサーバーは、32の並列AIエージェントを通じて、PyTorchモデルを高性能なCUDA/Tritonカーネルに自動的に最適化するツールです。推論速度を最大14倍に向上させることができ、さまざまなMCP互換のAIプログラミングアシスタントをサポートしています。
Gemini APIに基づく高度な推論と反省ツールで、多モデルの統合とカスタム設定をサポートします。
Deepseek R1モデルの思考チェーンを利用して推論を行うMCPサービスツールで、Claude Desktopなどのクライアントで使用できます。
Deepseek R1のMCPサーバー実装で、Node.js環境をサポートし、強力な言語モデル推論サービスを提供します。
Subconscious AI MCPサーバーは、モデルコンテキストプロトコルに基づくツールで、ClaudeやCursorなどのAIアシスタントを通じてAI駆動の連関実験を実行することができます。因果推論と合成人口データを利用して決定分析を行い、REST APIとリアルタイム更新機能を提供します。
PentestThinkingMCPは、大規模言語モデルとMCPプロトコルに基づく自動化された浸透テストフレームワークで、Beam SearchとMCTSアルゴリズムを通じて攻撃経路を計画し、CTF、HTB、および実際の浸透テストに対してステップの推論、ツールの推薦、重要な経路の分析を提供します。
GemForgeはGoogle Gemini AIとMCPエコシステムを接続する企業向けツールで、リアルタイムウェブアクセス、高度な推論、コード分析、多ファイル処理などの機能を提供し、60種類以上のファイル形式をサポートし、スマートなモデル選択と強力なエラー処理メカニズムを備えています。
量子場計算モデルに基づくClaudeマルチインスタンス協調推論サーバー。場の一貫性最適化により、強化されたAI推論能力を実現します。
構造化された検索と動的な思考チェーンにより、AIモデルの推論能力を強化し、問題解決能力を向上させるMCPサーバー。
mcp-scaffoldは、モデルコンテキストプロトコル(MCP)サーバーを検証するための開発サンドボックスで、ローカルLLM(LLaMA 7Bなど)とクラウド推論をサポートし、チャットインターフェイスと参照アーキテクチャを含んでいます。
ローカルで動作するインテリジェントエージェントシステムで、推論モデルとツール呼び出しモデルを組み合わせています。