NVIDIAがNemotron 3シリーズを発表。MambaとTransformerを融合したアーキテクチャで、長文コンテキストを効率的に処理し、リソース消費を削減。複雑なタスクを自律実行するAIエージェント向けに設計され、Nano、Super、Ultraの3モデルをラインアップ。Nanoは現在発売中、SuperとUltraは2026年前半の発売予定。....
2025年の小米エコシステム会議で、小米の新しい大規模モデル担当者である Luo Fuli(羅福莉)氏が、新たに設計されたMoE大規模モデル「MiMo-V2-Flash」を正式に発表しました。このモデルはHybrid SWAアーキテクチャを採用しており、デザインがシンプルでエレガントで、長文の推論において優れた性能を発揮します。これは、小米が人工汎用知能(AGI)の目標に向かって重要な一歩を踏み出したことを示しています。
CohereはRerank4の検索モデルをリリースし、コンテキストウィンドウを32Kに拡大しました。これは前バージョンの4倍です。このモデルはより長いドキュメントを処理でき、複数のセグメントを評価し、短いウィンドウでは認識できない関連性を捉えることができます。これにより、実際のドキュメントのランク付けの正確性が顕著に向上し、AIエージェントがタスクを効率的に完了できるようになります。
OpenAIのCEOサム・アルトマンは、GPT-5.2のリリースを年末から12月9日に前倒し。これはGoogleのGemini 3に対抗するためで、推論速度18%向上、マルチモーダル効率23%向上、コンテキスト長32,768トークン拡張と、公開データ上でGemini 3を上回る性能を示している。....
MacとWindowsのデスクトップアプリで、AIの長い会話におけるコンテキストの喪失問題を解決し、複数のモデルが利用可能です。
AI21が提供するJamba 1.6モデルは、企業のプライベート展開向けに設計されており、優れた長テキスト処理能力を備えています。
MoBAは、長文コンテキストに対応した混合ブロックアテンション機構であり、大規模言語モデルの効率化を目的としています。
月之暗面がリリースした最新のAIモデルです。自動同期更新と長文コンテキストに対応し、AIチャットやスマートアシスタントの構築に最適です。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4bは、高度なColPaliスタイルのマルチモーダル埋め込みモデルで、テキストクエリ、ビジュアルドキュメント(画像やPDFなど)、またはショートビデオをアラインされたマルチベクトル埋め込みにマッピングできます。このモデルは、Qwen3-VL-4B-InstructとQwen3-Embedding-4Bの長所を組み合わせ、ViDoReベンチマークテストで優れた性能を発揮し、同時に埋め込みに必要なスペースを大幅に削減します。
Kiy-K
Fyodor-Q3-8B-Instructは、スマート推論と堅牢なコード生成のために設計された高忠実度の命令調整モデルです。Qwen3 - 8Bアーキテクチャに基づき、高ランクのLoRA設定で訓練されており、コーディング前の計画立案に長けており、複雑なソフトウェアエンジニアリングタスクに非常に適しています。
ubergarm
これはai-sage/GigaChat3-10B-A1.8B-bf16モデルのGGUF量子化バージョンで、高精度のQ8_0から極度に圧縮されたsmol-IQ1_KTまで、さまざまな量子化オプションを提供し、さまざまなハードウェア条件でのデプロイメントニーズを満たします。このモデルは32Kのコンテキスト長をサポートし、MLAアーキテクチャを採用し、対話シナリオに最適化されています。
DreadPoor
Strawberry_Smoothie-TESTは、mergekitツールを使用して3つの12Bパラメータモデルを統合した混合モデルです。Unity-12B、Chaos-Unknown-12b、Smoothie-12B-Model_Stockの長所を組み合わせ、より良いテキスト生成と対話能力を提供することを目的としています。
ai-sage
GigaChat3-10B-A1.8BはGigaChatシリーズの対話モデルで、混合専門家(MoE)アーキテクチャに基づいており、合計100億のパラメータがあり、そのうち18億がアクティブなパラメータです。このモデルは、マルチヘッド潜在注意力と多トークン予測技術を採用しており、25.6万トークンの長文脈をサポートし、多言語対話と推論タスクで優れた性能を発揮します。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
DavidAU
Qwen 3をベースに微調整された12Bパラメータの大規模言語モデルで、256kの超長コンテキスト処理能力を備え、長文テキスト生成タスクに特化して最適化されています。このモデルはVLTO 8Bモデルの基礎、Brainstorm 20xの調整、NEO Imatrixデータセットの量子化技術を組み合わせ、高品質の長文テキストコンテンツを生成できます。
allenai
Olmo 3 32B Think SFTはTransformerアーキテクチャに基づく自己回帰型言語モデルで、長い思考連鎖推論に優れており、特に数学やコーディングなどの複雑な推論タスクを処理するのに適しています。このモデルはDolma 3データセットで事前学習され、Dolciデータセットで教師付き微調整されています。
Tarka-AIR
Tarka-Embedding-350M-V1は3億5000万のパラメータを持つテキスト埋め込みモデルで、1024次元の密集したテキスト表現を生成することができます。このモデルは、意味的な類似性、検索、および検索強化生成(RAG)などの下流アプリケーションに対して最適化されており、複数の言語をサポートし、長いコンテキストを処理する能力を持っています。
IbrahimSalah
これは300時間の純粋なアラビア語音声データを基に微調整されたテキスト音声変換モデルで、完全な母音記号付きの現代標準アラビア語に特化した高品質な音声合成を提供し、音声クローンと長文処理機能をサポートしています。
unsloth
Qwen3-VLは通義シリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストのサポート、強力な空間とビデオ動的理解能力、そして優れたインテリジェントエージェント対話能力を備えています。
Qwen3-VL-32B-ThinkingはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長文脈処理、空間および動画の動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen3-VL-8B-Thinkingは通義千問シリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間とビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen3-VLは通義シリーズの中で最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚知覚と推論能力、長いコンテキストのサポート、強力な空間およびビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen3-VLは通義シリーズで最も強力なビジュアル言語モデルで、テキスト理解と生成、ビジュアル認知と推論、コンテキスト長、空間およびビデオの動的理解、エージェントインタラクション能力などの面で全面的にアップグレードされています。このモデルは密集アーキテクチャとハイブリッドエキスパートアーキテクチャを提供し、エッジデバイスからクラウドまでの柔軟なデプロイをサポートします。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、包括的な総合アップグレードが実現されています。これには、卓越したテキスト理解と生成能力、より深いビジュアル感知と推論能力、より長いコンテキスト長、強化された空間およびビデオ動的理解能力、そしてより強力なエージェント対話能力が含まれます。
Qwen3-VLはアリババが開発した新世代のビジュアル言語モデルで、テキスト理解、ビジュアル感知、空間理解、長文脈処理、エージェントインタラクションなどの分野で全面的にアップグレードされ、エッジデバイスからクラウドまで柔軟にデプロイできます。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間とビデオ動的理解能力、そして優れたエージェントインタラクション能力を備えています。このバージョンは2Bパラメータの思考強化版で、推論能力が特別に最適化されています。
Qwen
Qwen3-VL-30B-A3B-Thinkingは通義シリーズで最も強力なビジュアル言語モデルで、優れたテキスト理解と生成能力、深いビジュアル認識と推論能力、長いコンテキストのサポート、強力な空間とビデオ動的理解能力、およびエージェント対話能力を備えています。
Claude CodeとGoogle Gemini AIを組み合わせたMCPサーバーで、多モデル協調により深いコード分析を実現します。Claudeはローカルコンテキスト操作とCLIワークフローに優れ、Geminiは超大規模なコンテキストウィンドウを利用して分散システムのデバッグと長いトレース分析を行います。
デスクトップコマンダーMCPは、Claudeデスクトップアプリがユーザーのコンピュータ上でターミナルコマンドを実行し、モデルコンテキストプロトコル(MCP)を通じてプロセスを管理できるサービスです。ターミナルコマンドの実行、プロセス管理、ファイルシステム操作、およびコード編集機能を提供し、長時間実行されるコマンドと差分ファイル編集をサポートしています。
LoomはMCPサーバーで、ユーザーがベースモデルと協力してテキストを構築することをサポートします。短い断片の反復生成と選択により、長文作成の品質を最適化します。
TOON - MCPは、冗長なJSON構造を自動的にトークン最適化オブジェクト表現(TOON)に変換することで、AI支援開発ワークフローにおけるトークン消費を最大60%削減できるモデルコンテキストプロトコルサーバーです。
このプロジェクトには、モデルコンテキストプロトコル(MCP)に基づく2つのサーバーが含まれています。IoTデバイス制御サーバーとメモリ管理サーバーです。IoTサーバーは、デバイスの制御、状態の照会、およびリアルタイム更新機能を提供し、スマートホームや産業用IoTなどのシナリオに適しています。メモリ管理サーバーは、長期的なメモリ保存とセマンティック検索機能を提供し、会話履歴や知識管理などの分野に適しています。
MCP SSEプロキシサーバーは、Server-Sent Eventsに基づくモデルコンテキストプロトコルのプロキシサービスで、MCPサーバーのリモート実行をサポートし、安定した長時間接続を維持します。共有と独立の2種類のセッションモードを提供し、動的環境設定をサポートしています。
メモリMCPサーバーは、大規模言語モデル(LLM)に長期記憶機能を提供するサーバーで、モデルコンテキストプロトコル(MCP)を実装することで、LLMの継続的な対話におけるコンテキスト認識能力を強化します。このプロジェクトはユーザーフレンドリーなAPIを提供し、コンテキスト情報の保存と検索をサポートし、拡張性があり、さまざまなLLMアーキテクチャに適用できます。
ComfyUI_StoryDiffusionはComfyUIベースのプラグインで、StoryDiffusionとMS - Diffusionモデルをサポートし、一貫した長いシーケンスの画像とビデオを生成するために使用されます。このプロジェクトは、二人のキャラクターの同時表示、ControlNet制御、Lora加速、テキストから画像への変換、画像から画像への変換など、さまざまな機能をサポートしています。