DeepSeekは来週、マルチモーダル大規模モデルV4を発表する予定です。このモデルは画像、動画、テキストの生成をサポートしています。このモデルはすべての中国製算力と互換性があり、中国製半導体チップとの適合性を最適化することを目的としています。このモデルは国内半導体需要の促進と、AI推論および中国製チップの統合を加速する可能性があります。
深度求索は来週、画像・動画・テキスト生成をネイティブサポートする多モーダル大規模モデルV4をリリース。国内の高性能低コストオープンソース多モーダルモデル市場の空白を埋める。1月のR1推論モデル以来の初の大型アップデート。初期は簡易技術説明を提供、1ヶ月後に詳細なエンジニアリングレポートを公開。V4は華為・寒武紀と基盤エコシステムで連携済み。....
深度求索は来週、画像・動画・テキスト生成をネイティブサポートするマルチモーダル大規模モデル「DeepSeek V4」をリリース。国内の低コストオープンソースモデル需要に対応し、AI発展を推進。技術概要も同時公開、詳細版は約1ヶ月後予定。....
中国のAI動画生成技術が世界ランキングで顕著な成果を上げている。快手の独自開発モデル「可霊3.0Pro」は、優れた視覚品質と論理的一貫性により、世界的なAIベンチマークテストでテキストから動画生成部門の首位を獲得し、中国AI技術の先進性を示した。....
テキスト説明だけで数秒で専門的な無著作権の音楽を生成できるAI音楽生成器。
無料のAI画像生成器で、Google Gemini 3.1 Flash技術を使って、テキストからリアルな画像を生成します。
無料のNano Banana 2画像生成器で、テキストから画像への変換と画像から画像への変換がサポートされています。
無料のAI生成ツールで、画像、動画、音楽、音声、テキストをカバー。登録すると毎月10ポイントがもらえます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$2
$20
$4
$16
city96
FLUX.2-devはblack-forest-labsによって開発された画像生成および編集モデルで、GGUF形式に変換され、画像生成タスクに最適化されており、拡散モデルアーキテクチャを採用し、ComfyUIフレームワークでの使用をサポートしています。
gguf-org
flux2-dev-ggufは、FLUX.2-devに基づく画像から画像への変換モデルで、テキストプロンプトに基づいて特定のスタイルの画像を生成するために特別に設計されています。このモデルはComfyUI環境での実行をサポートし、テキスト記述をスタイル化されたビジュアルコンテンツに変換することができます。
ostris
これはLoRA技術に基づくテキストから画像への変換モデルで、フランスの印象派画家ベルト・モリソーの芸術スタイルを持つ画像を生成するために特別に設計されています。このモデルはFLUX.2-devベースモデル上で訓練され、通常の画像またはテキスト記述をモリソースタイルの絵画に変換することができます。
diffusers
FLUX.2-devはNF4量子化のDiTとテキストエンコーダに基づく画像生成と編集モデルで、高品質な画像生成と編集能力を提供し、画像分野の開発アプリケーションに適しています。
bartowski
これはsqu11z1のHypnos-i1-8Bモデルの量子化バージョンで、llama.cppツールと特定のデータセットを使用して量子化処理が行われています。このモデルはLlama-3アーキテクチャに基づいており、複数の量子化タイプを提供し、テキスト生成タスクをサポートし、推論や対話などの様々なアプリケーションシーンに適しています。
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
ExaltedSlayer
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルです。このバージョンは12Bパラメータの命令調整量子化感知トレーニングモデルで、MLXフレームワークのMXFP4形式に変換されています。テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140種類以上の言語をサポートしています。
noctrex
これはHuihui-MiroThinker-v1.0-30Bモデルに基づいて行われたMXFP4_MOE imatrix量子化バージョンで、テキスト生成タスクに特化して最適化されており、モデルの性能を維持しながら、モデルのサイズと推論コストを大幅に削減しています。
gia-uh
セシリアFT MS v1は、セシリア2B v0.1を微調整したキューバ言語モデルで、キューバスペイン語に特化して最適化されており、キューバの言語、文化、社会の微妙なニュアンスを捉えることができます。このモデルはスペイン語と英語をサポートし、主にテキスト生成タスクに使用されます。
black-forest-labs
FLUX.2 [dev] は320億のパラメータを持つ補正フロートランスフォーマーモデルで、画像生成、編集、および合成タスクに特化しています。このモデルは、テキストから画像への生成、単一参照編集、および多参照編集においてリーディングレベルであり、微調整なしでキャラクター、オブジェクト、およびスタイルの参照を実現し、個人、科学、および商業用途をサポートします。
Kiy-K
Fyodor-Q3-8B-Instructは、スマート推論と堅牢なコード生成のために設計された高忠実度の命令調整モデルです。Qwen3 - 8Bアーキテクチャに基づき、高ランクのLoRA設定で訓練されており、コーディング前の計画立案に長けており、複雑なソフトウェアエンジニアリングタスクに非常に適しています。
これはai-sageのGigaChat3-10B-A1.8Bモデルを定量処理したバージョンで、llama.cppのimatrix定量技術を採用し、さまざまなハードウェア条件下でより効率的に動作します。モデルはロシア語と英語をサポートし、主にテキスト生成タスクに使用されます。
jayn7
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、テキストから動画生成タスクに特化しており、720P高画質動画生成をサポートし、使用効率を最適化するための複数の量子化精度バージョンを提供します。
このプロジェクトは、テンセントの混元ビデオ1.5のテキストから動画へのモデルの量子化GGUFバージョンを提供し、480P動画生成タスクをサポートします。蒸留モデルと完全モデルの2つのバージョンが含まれており、ComfyUI - GGUFなどのツールと連携して使用できます。
mradermacher
これはwexyyyyyy/Ru-Gemma3-1Bモデルの静的量子化バージョンで、ロシア語と英語をサポートし、対話とテキスト生成タスク用に特別に設計されています。このモデルは、さまざまなハードウェア構成とパフォーマンス要件に適した複数の量子化バージョンを提供します。
DreadPoor
Strawberry_Smoothie-TESTは、mergekitツールを使用して3つの12Bパラメータモデルを統合した混合モデルです。Unity-12B、Chaos-Unknown-12b、Smoothie-12B-Model_Stockの長所を組み合わせ、より良いテキスト生成と対話能力を提供することを目的としています。
DevQuasar
これは ai-sage/GigaChat3-702B-A36B-preview-bf16 モデルの量子化バージョンで、一般の人々に無料で知識を取得する手段を提供することを目的としています。このモデルは大型言語モデルで、テキスト生成タスクに特化しています。
Owen777
UltraFluxは、Fluxベースの拡散トランスフォーマーで、ネイティブ4Kのテキストから画像への生成に特化しています。データ、アーキテクチャ、損失関数の協調設計により、様々なアスペクト比で一貫した画像品質を維持することができます。
これはHuihui - MiroThinker - v1.0 - 8Bモデルに基づく量子化バージョンで、テキスト生成タスクに特化して最適化されており、量子化技術によって推論効率を向上させると同時に、モデルの性能を維持しています。
これはMiroThinker-v1.0-30BモデルをMXFP4_MOE imatrix量子化したバージョンで、mradermacherのimatrixをベースに実装されています。この量子化モデルは元のモデルのテキスト生成能力を維持しながら、量子化技術によって推論効率を向上させ、高効率なテキスト生成が必要な様々なアプリケーションシーンに適しています。
アデリンは、Rustで書かれたオープンソースのSolidityスマートコントラクト静的分析ツールで、開発者やセキュリティ研究者がSolidityコードの脆弱性を発見するのを支援します。FoundryとHardhatプロジェクトをサポートし、複数の形式のレポートを生成でき、VSCode拡張機能も提供します。
Haiku RAGは、LanceDB、Pydantic AI、Doclingを基盤とした高度な検索強化生成システムです。ハイブリッド検索、再ランキング、質問応答エージェント、多エージェント研究プロセスをサポートし、ローカルファーストのドキュメント処理とMCPサーバー統合を提供します。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、Webプラットフォームで簡単に使えるMCP(モデルコンテキストプロトコル)サービスを提供します。レポート生成、YouTubeツール、ドキュメント変換などのさまざまな機能があり、非技術ユーザーと開発者がAIワークフローを使用するのをサポートします。
AWS MCPサーバーは、Model Context Protocolに基づく専用サーバーのセットであり、ドキュメント検索、知識ベース照会、CDKのベストプラクティス、コスト分析、画像生成など、さまざまなAWS関連機能を提供します。標準化されたプロトコルを通じてAIアプリケーションとAWSサービスの統合を強化することを目的としています。
MiniMax Model Context Protocol (MCP) は公式サーバーで、強力なテキスト読み上げ、ビデオ/画像生成APIとのやり取りをサポートし、Claude Desktop、Cursorなどの様々なクライアントツールに適しています。
Mapbox MCPサーバーは、Node.jsで実装されたモデルコンテキストプロトコルサーバーで、AIアプリケーションにMapboxの地理空間APIへのアクセス機能を提供します。地理コーディング、興味のある場所の検索、ルート計画、等時線分析、静的地図生成などの機能が含まれます。
オープンソースのショートビデオ自動生成ツールで、テキスト読み上げ、自動字幕、背景ビデオ、音楽を統合し、簡単なテキスト入力から専門的なショートビデオを作成します。
即夢AIをベースにした画像生成サービスで、Cursor IDE用に設計され、テキスト記述から画像の生成と保存を実現します。
AI開発アシスタントMCPサーバーは、AIベースのコード開発ツールキットで、コードアーキテクチャ生成、UIスクリーンショット分析、コードレビューなどの機能を提供し、Cursor用に設計されています。
Blueprint MCPは、Arcadeエコシステムに基づくチャート生成ツールで、Nano Banana Proなどの技術を利用して、コードベースとシステムアーキテクチャを分析し、アーキテクチャ図、フローチャートなどのビジュアルチャートを自動生成し、開発者が複雑なシステムを理解するのを支援します。
ミニマックス公式のモデルコンテキストプロトコル(MCP)サーバーで、テキスト読み上げ、ビデオ/画像生成などのAPIとのやり取りをサポートします。
pg-aiguideはAIによって最適化されたPostgreSQLの知識ベースで、AIプログラミングアシスタントに公式ドキュメントの意味検索、ベストプラクティスのスキル、および拡張エコシステムのドキュメントを提供し、より高品質なPostgreSQLコードの生成を支援します。
API 200はオープンソースのAPI統合プラットフォームで、サードパーティAPIの迅速なアクセスと管理機能を提供し、自動コード生成、ドキュメント、認証、キャッシュ、エラー処理などの特性を備え、自前でホストするデプロイとMCPサービスをサポートします。
MemoryMeshは、AIモデル向けの知識グラフサーバーで、テキストロールプレイングゲームとインタラクティブな物語に特化しています。動的なスキーマ定義と自動生成ツールを通じて、AIが対話中に一貫した構造化された記憶を維持し、より豊かで動的な対話体験を実現します。
FileScopeMCPはTypeScriptベースのコード分析ツールで、ファイルの重要度スコアを計算し、依存関係を追跡し、可視化チャートを生成し、ファイルの要約を追加することで、開発者がコードライブラリの構造を迅速に理解するのを支援します。多言語のプロジェクト分析をサポートし、Mermaidチャートの生成と永続的なストレージ機能を提供し、Cursorのモデルコンテキストプロトコルと統合できます。
PMATはゼロコンフィギュレーションのAIコードコンテキスト生成ツールで、コード品質分析、技術的負債評価、ミューテーションテスト、リポジトリ健全性評価、意味検索などの機能を提供し、17種類以上のプログラミング言語をサポートし、MCPプロトコルを通じてClaude CodeなどのAIアシスタントと統合することができます。
DB MCP Serverは、マルチデータベースをサポートするサーバーで、モデルコンテキストプロトコル(MCP)を実装し、AIアシスタントに構造化されたデータベースアクセス機能を提供します。MySQLとPostgreSQLをサポートし、複数のデータベースに同時に接続でき、専用ツールを自動生成し、明確なアーキテクチャ設計に準拠しています。
MCP Appiumはモデルコンテキストプロトコルに基づくインテリジェントなモバイル自動化サーバーで、AIアシスタントにクロスプラットフォームのモバイルアプリテストツールを提供します。iOSとAndroidプラットフォームをサポートし、スマート要素定位、セッション管理、自動化テスト生成などの機能を備えています。
クイックスタートオートMCPは、ユーザーがClaude DesktopとCursorでAnthropicモデルコンテキストプロトコル(MCP)を迅速に登録するのを支援するツールです。RAGドキュメント検索、Difyワークフロー、リアルタイムウェブ検索などの機能を提供し、JSON設定ファイルをワンクリックで生成することができます。
Notebook Intelligence (NBI) は、JupyterLab用に設計されたAIコーディングアシスタントおよび拡張可能なAIフレームワークで、GitHub Copilotや他のLLMプロバイダーのモデル(ローカルのOllamaモデルを含む)をサポートします。コード生成、自動補完、チャットインターフェイスなどの機能により生産性を大幅に向上させ、モデルコンテキストプロトコル(MCP)サービスの統合をサポートします。