通義ラボは、Fun-CosyVoice3.5およびFun-AudioGen-VDの2つの音声大規模モデルを発表しました。'FreeStyle'の自然言語指令により、1文で自由に音声を生成する深層的なインタラクティブ性を実現しています。Fun-CosyVoice3.5にはタイ語、インドネシア語などの4つの言語が追加され、多言語での再現力と細分化された表現能力が向上しています。
アリババ通義ラボは、Fun-CosyVoice3.5とFun-AudioGen-VDの2つの音声生成モデルをリリースしました。自由な「FreeStyle」コマンドをサポートしており、ユーザーは自然言語による記述で音声スタイルを制御したり、オーディオシーンを構築できます。Fun-CosyVoice3.5は多言語の再現と細やかな制御に特化しており、CosyVoiceのアップグレード版です。
ミートゥー・デザインルームはビデオ創作の大規模モデルであるSeedance2.0に接続し、AI技術を深く統合してEC動画の生産を最適化しました。今回のアップグレードでは高精度な生成能力をECシーンに応用し、商家に対して製品展示、仮想着用からコスメーションへの全行程の動画コンテンツソリューションを提供し、AIの商業化を推進します。
DeepSeekは来週、マルチモーダル大規模モデルV4を発表する予定です。このモデルは画像、動画、テキストの生成をサポートしています。このモデルはすべての中国製算力と互換性があり、中国製半導体チップとの適合性を最適化することを目的としています。このモデルは国内半導体需要の促進と、AI推論および中国製チップの統合を加速する可能性があります。
テキストや画像を映画級の動画に変換する強力なAI動画生成モデルです。
Grok Imagine 2.0は無料のオンラインAIビデオ生成ツールで、Auroraモデルによって駆動され、テキストをビデオに変換します。
Seedance 2.0は高速で2K画質のAIビデオを生成でき、マルチモーダル入力と編集に対応しています。
HeyVid AIは統合型のAIビデオおよび画像生成ツールで、無料で18種以上のトップモデルを利用できます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
drbaph
Z-Image(造相)は60億のパラメータを持つ高効率な画像生成基礎モデルで、画像生成分野の効率と品質の問題を専門的に解決します。その蒸留バージョンであるZ-Image-Turboは、たった8回の関数評価でリーディングな競合モデルに匹敵するか、それを上回る性能を発揮し、企業用のH800 GPUでは亚秒級の推論遅延を実現し、16G VRAMの消費者向けデバイスでも動作します。
city96
FLUX.2-devはblack-forest-labsによって開発された画像生成および編集モデルで、GGUF形式に変換され、画像生成タスクに最適化されており、拡散モデルアーキテクチャを採用し、ComfyUIフレームワークでの使用をサポートしています。
gguf-org
flux2-dev-ggufは、FLUX.2-devに基づく画像から画像への変換モデルで、テキストプロンプトに基づいて特定のスタイルの画像を生成するために特別に設計されています。このモデルはComfyUI環境での実行をサポートし、テキスト記述をスタイル化されたビジュアルコンテンツに変換することができます。
silveroxides
black-forest-labs/FLUX.2-devをベースに最適化された画像生成モデルで、画像から画像への生成と編集タスクをサポートし、fp8_scaled量子化技術を採用して推論速度を向上させ、低VRAMのGPUでの使用に特に適しています。
ostris
これはLoRA技術に基づくテキストから画像への変換モデルで、フランスの印象派画家ベルト・モリソーの芸術スタイルを持つ画像を生成するために特別に設計されています。このモデルはFLUX.2-devベースモデル上で訓練され、通常の画像またはテキスト記述をモリソースタイルの絵画に変換することができます。
Tongyi-MAI
Z-Imageは機能が豊富で高効率な画像生成モデルで、60億のパラメータを持っています。これは画像生成分野における効率、品質、機能の多様性の問題を効果的に解決し、ユーザーに高品質の画像生成と編集サービスを提供します。
optimum-internal-testing
これはHugging Face Hub上の🤗 Transformersモデルです。具体的な情報は後で補足されます。モデルカードは自動生成されており、モデルの公開者がより詳細な情報を提供する必要があります。
Gjm1234
Wan2.2は基礎ビデオモデルの大幅なアップグレード版で、有効なMoEアーキテクチャ、効率的なトレーニング戦略、マルチモーダル融合などの革新的な技術をビデオ拡散モデルに取り入れ、ビデオ生成分野により強力で効率的な解決策をもたらします。
diffusers
FLUX.2-devはNF4量子化のDiTとテキストエンコーダに基づく画像生成と編集モデルで、高品質な画像生成と編集能力を提供し、画像分野の開発アプリケーションに適しています。
bartowski
これはsqu11z1のHypnos-i1-8Bモデルの量子化バージョンで、llama.cppツールと特定のデータセットを使用して量子化処理が行われています。このモデルはLlama-3アーキテクチャに基づいており、複数の量子化タイプを提供し、テキスト生成タスクをサポートし、推論や対話などの様々なアプリケーションシーンに適しています。
lightx2v
このリポジトリには、HunyuanVideo-1.5用に最適化された4ステップ蒸留モデルが含まれています。このモデルは、CFG(分類器なしガイダンス)を使用せずに、超高速の4ステップ推論を実現し、生成時間を大幅に削減すると同時に、高品質のビデオ出力を維持します。
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
ExaltedSlayer
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルです。このバージョンは12Bパラメータの命令調整量子化感知トレーニングモデルで、MLXフレームワークのMXFP4形式に変換されています。テキストと画像の入力をサポートし、テキスト出力を生成します。128Kのコンテキストウィンドウと140種類以上の言語をサポートしています。
00quebec
これはQwen-Image用に特別に設計されたオープンソースのLoRAモデルで、現代のiPhone撮影のリアルな外観と感じを再現することに特化しています。このモデルは5000枚以上の実際のiPhoneスタイルの写真を基に訓練されており、鮮明で自然な、ソーシャルメディアで共有するのに適した画像を生成できます。
noctrex
これはHuihui-MiroThinker-v1.0-30Bモデルに基づいて行われたMXFP4_MOE imatrix量子化バージョンで、テキスト生成タスクに特化して最適化されており、モデルの性能を維持しながら、モデルのサイズと推論コストを大幅に削減しています。
gia-uh
セシリアFT MS v1は、セシリア2B v0.1を微調整したキューバ言語モデルで、キューバスペイン語に特化して最適化されており、キューバの言語、文化、社会の微妙なニュアンスを捉えることができます。このモデルはスペイン語と英語をサポートし、主にテキスト生成タスクに使用されます。
black-forest-labs
FLUX.2 [dev] は320億のパラメータを持つ補正フロートランスフォーマーモデルで、画像生成、編集、および合成タスクに特化しています。このモデルは、テキストから画像への生成、単一参照編集、および多参照編集においてリーディングレベルであり、微調整なしでキャラクター、オブジェクト、およびスタイルの参照を実現し、個人、科学、および商業用途をサポートします。
Sachin-0001
これは🤗 Transformersライブラリに基づく双方向自己回帰Transformerモデルで、モデルセンターにアップロードされています。モデルカードはシステムによって自動生成され、具体的な技術詳細とアプリケーション情報はさらに補足する必要があります。
Kiy-K
Fyodor-Q3-8B-Instructは、スマート推論と堅牢なコード生成のために設計された高忠実度の命令調整モデルです。Qwen3 - 8Bアーキテクチャに基づき、高ランクのLoRA設定で訓練されており、コーディング前の計画立案に長けており、複雑なソフトウェアエンジニアリングタスクに非常に適しています。
これはai-sageのGigaChat3-10B-A1.8Bモデルを定量処理したバージョンで、llama.cppのimatrix定量技術を採用し、さまざまなハードウェア条件下でより効率的に動作します。モデルはロシア語と英語をサポートし、主にテキスト生成タスクに使用されます。
Klavis AIはオープンソースプロジェクトで、Slack、Discord、Webプラットフォームで簡単に使えるMCP(モデルコンテキストプロトコル)サービスを提供します。レポート生成、YouTubeツール、ドキュメント変換などのさまざまな機能があり、非技術ユーザーと開発者がAIワークフローを使用するのをサポートします。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
Mapbox MCPサーバーは、Node.jsで実装されたモデルコンテキストプロトコルサーバーで、AIアプリケーションにMapboxの地理空間APIへのアクセス機能を提供します。地理コーディング、興味のある場所の検索、ルート計画、等時線分析、静的地図生成などの機能が含まれます。
ミニマックス公式のモデルコンテキストプロトコル(MCP)サーバーで、テキスト読み上げ、ビデオ/画像生成などのAPIとのやり取りをサポートします。
このプロジェクトはLangChainにModel Context Protocol(MCP)ツールの呼び出しサポートを提供し、MCPツールキットを通じてAIモデルとの相互作用を実現します。例えば、ファイルの読み取りや要約の生成などです。
MemoryMeshは、AIモデル向けの知識グラフサーバーで、テキストロールプレイングゲームとインタラクティブな物語に特化しています。動的なスキーマ定義と自動生成ツールを通じて、AIが対話中に一貫した構造化された記憶を維持し、より豊かで動的な対話体験を実現します。
mcp-hfspaceは、Hugging Face Spacesに接続するMCPサーバーで、画像生成、音声処理、ビジュアルモデルなど、さまざまなAI機能をサポートし、Claude Desktopとの統合を簡素化します。
FileScopeMCPはTypeScriptベースのコード分析ツールで、ファイルの重要度スコアを計算し、依存関係を追跡し、可視化チャートを生成し、ファイルの要約を追加することで、開発者がコードライブラリの構造を迅速に理解するのを支援します。多言語のプロジェクト分析をサポートし、Mermaidチャートの生成と永続的なストレージ機能を提供し、Cursorのモデルコンテキストプロトコルと統合できます。
DB MCP Serverは、マルチデータベースをサポートするサーバーで、モデルコンテキストプロトコル(MCP)を実装し、AIアシスタントに構造化されたデータベースアクセス機能を提供します。MySQLとPostgreSQLをサポートし、複数のデータベースに同時に接続でき、専用ツールを自動生成し、明確なアーキテクチャ設計に準拠しています。
Unreal Engineの生成型AIサポートプラグインで、最新のLLM/GenAIモデルAPIを統合し、ゲーム開発におけるAI統合層のサポートを提供します。OpenAI、Claude、Deepseekなどのモデルのチャット、構造化出力などの機能を備え、Model Control Protocol(MCP)をサポートしてシーンオブジェクトの制御やブループリントの生成などの高度な機能を実現します。
MCP Appiumはモデルコンテキストプロトコルに基づくインテリジェントなモバイル自動化サーバーで、AIアシスタントにクロスプラットフォームのモバイルアプリテストツールを提供します。iOSとAndroidプラットフォームをサポートし、スマート要素定位、セッション管理、自動化テスト生成などの機能を備えています。
クイックスタートオートMCPは、ユーザーがClaude DesktopとCursorでAnthropicモデルコンテキストプロトコル(MCP)を迅速に登録するのを支援するツールです。RAGドキュメント検索、Difyワークフロー、リアルタイムウェブ検索などの機能を提供し、JSON設定ファイルをワンクリックで生成することができます。
Notebook Intelligence (NBI) は、JupyterLab用に設計されたAIコーディングアシスタントおよび拡張可能なAIフレームワークで、GitHub Copilotや他のLLMプロバイダーのモデル(ローカルのOllamaモデルを含む)をサポートします。コード生成、自動補完、チャットインターフェイスなどの機能により生産性を大幅に向上させ、モデルコンテキストプロトコル(MCP)サービスの統合をサポートします。
Trellis MCPはAIアシスタントとTrellis 3D生成モデルをつなぐインターフェースサービスで、自然言語で迅速に3Dアセットを生成してBlenderにインポートできます。このプロジェクトはオープンソースモデルに基づいており、APIバックエンドを自分でデプロイする必要があり、高速で無料という特徴がありますが、安定性のリスクがあります。
MCP STL 3Dレリーフ生成器は、2D画像を3Dレリーフモデルに変換するツールで、モデルのサイズ制御、ベースの追加、深度反転などの機能に対応し、3D印刷やレンダリングに適しています。
CTXはコードリポジトリと大規模言語モデル(LLM)を接続するツールで、構造化されたコンテキストファイルを自動生成することで、AI開発におけるコードコンテキストの伝達効率が低い問題を解決します。コードファイル、Gitリポジトリ、ウェブページなどの複数のソースから情報を収集することができ、MCPサーバーを通じて直接AIアシスタントにプロジェクトコンテキストを提供することができます。
mcp-rag-serverは、Model Context Protocol (MCP)に基づくサービスで、検索強化生成(RAG)をサポートし、ドキュメントをインデックス化し、大規模言語モデルに関連するコンテキストを提供します。
Node.jsとGemini APIに基づくAI研究アシスタントツールで、Firecrawlを通じてウェブデータを収集し、Gemini大規模モデルを利用して深い言語理解とレポート生成を行い、反復的な深層研究をサポートし、MCPプロトコルと統合できます。
このプロジェクトは、Google Cloud Vertex AI Geminiモデルに基づくMCPサーバーで、コード支援と一般的な質問応答に使用する豊富なツールセットを提供します。Web検索強化型の回答、ドキュメントの説明生成、ファイルシステム操作などの機能をサポートしています。
HALは大規模言語モデルにHTTP API機能を提供するMCPサーバーで、安全なインターフェイスを介したネットワークリクエストとOpenAPI仕様からの自動ツール生成をサポートしています。