ClipSketch AIは、動画を手描き風ストーリーボードに変換し、SNS向け文案を自動生成するオープンソースツールです。BilibiliやREDなどのリンク解析機能で、コンテンツ制作を効率化します。....
ByteDanceとNTUが開発したオープンソースフレームワーク「StoryMem」は、革新的な「視覚的記憶」メカニズムにより、単一ショット動画生成モデルをマルチショット長編動画生成ツールに進化させ、1分以上の自然なカット割りでキャラクターとシーンの一貫性を保つ物語動画を自動生成し、オープンソースAI動画技術の映画級ナラティブへの発展を促進します。....
YouTubeの新規ユーザー向け推奨動画の20%以上が、AI生成の「ジャンクコンテンツ」であることが判明。1.5万チャンネルを調査した結果、278チャンネルがAIコンテンツを専門に配信し、総再生回数630億回、収益は年間約1.17億ドルに上る。....
クアンカーマンガは「AIキャストインタラクティブマンガ」をリリースしました。AI技術を使ってマンガキャラクターを「生きている」ようにするこの製品は、マンガ業界がAI体験の第4のトレンドに入ることを示しています。この製品はMiniMaxによって技術支援され、動画と音声生成モデルを統合し、ユーザーに没入型のインタラクティブ体験を提供します。
無料で透かしのない画像から動画へのAIツールで、登録不要で、高品質の動画を迅速に生成します。
CUTY AIは統合型のビジュアルコンテンツ生成プラットフォームで、AIを使って画像や動画を作成します。
AI駆動の画像生成ツールで、瞬時に4枚の高画質画像を生成します。毎日無料のクォータがあり、複数のモデルから選べます。
複数のショットを使って物語を表現する動画を生成するツールで、高い一貫性と視覚効果を持っています。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
Baidu
128
$4
$16
Bytedance
$1.2
$3.6
4
drbaph
Z-Image(造相)は60億のパラメータを持つ高効率な画像生成基礎モデルで、画像生成分野の効率と品質の問題を専門的に解決します。その蒸留バージョンであるZ-Image-Turboは、たった8回の関数評価でリーディングな競合モデルに匹敵するか、それを上回る性能を発揮し、企業用のH800 GPUでは亚秒級の推論遅延を実現し、16G VRAMの消費者向けデバイスでも動作します。
MCG-NJU
SteadyDancerは、画像から動画へのパラダイムに基づく強力なアニメーションフレームワークで、高忠実度で時間的に連続した人体アニメーションの生成に特化しています。このフレームワークは、堅牢な最初のフレームの保持メカニズムにより、従来の方法におけるアイデンティティドリフトの問題を効果的に解決し、視覚的な品質と制御性に優れており、同時にトレーニングリソースの必要量を大幅に削減します。
jayn7
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、テキストから動画生成タスクに特化しており、720P高画質動画生成をサポートし、使用効率を最適化するための複数の量子化精度バージョンを提供します。
このプロジェクトは、テンセントの混元ビデオ1.5のテキストから動画へのモデルの量子化GGUFバージョンを提供し、480P動画生成タスクをサポートします。蒸留モデルと完全モデルの2つのバージョンが含まれており、ComfyUI - GGUFなどのツールと連携して使用できます。
このプロジェクトでは、騰訊のHunyuanVideo-1.5-I2V-720pモデルの量子化GGUFバージョンを提供しており、画像を動画に変換するタスクや動画生成タスクに特化しています。このモデルは、静止画像を高品質な動画コンテンツに変換することができ、性能を最適化するための複数の量子化バージョンを提供しています。
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、画像を動画に変換するタスクや動画生成タスクに特化しています。480P解像度の蒸留モデルと標準モデルを提供し、Q4_K_S、Q8_0、FP16などの複数の量子化精度をサポートします。
kayte0342
ChronoEdit-14BはNVIDIAが開発した、時間推論能力を備えた画像編集と世界シミュレーションモデルで、140億のパラメータを持っています。このモデルは、2段階の推論プロセスにより、物理知覚に基づく画像編集と動作条件に基づく世界シミュレーションを実現し、事前学習されたビデオ生成モデルから事前知識を抽出します。
tencent
混元ビデオ - 1.5は軽量級で高性能なビデオ生成モデルで、わずか83億のパラメータでトップレベルのビデオ品質を提供し、使用の敷居を大幅に下げます。消費者向けGPUでスムーズに動作し、テキストからビデオ、画像からビデオの生成をサポートし、すべての開発者やクリエイターが簡単に使用できます。
onnx-community
SAM3は概念ベースの任意分割モデルで、入力された点やボックスなどのプロンプト情報に基づいて、正確な画像分割マスクを生成することができます。このバージョンはONNX形式のSAM3トラッカーモデルで、Transformers.jsライブラリを通じてブラウザ環境で効率的に動作します。
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
unsloth
Qwen3-VL-32B-ThinkingはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長文脈処理、空間および動画の動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen
Qwen3-VL-2B-Instruct-GGUFは通義千問シリーズのマルチモーダルビジュアル言語モデルのGGUF量子化バージョンで、20億のパラメータを持ち、画像理解とテキスト生成のシームレスな融合をサポートし、CPUやGPUなどのデバイスで効率的に動作します。
Qwen3-VLはこれまでのQwenシリーズで最も強力なビジュアル言語モデルで、テキスト理解と生成、ビジュアル認識と推論、コンテキスト長、空間と動画の動的理解、エージェントの対話能力などの面で全面的にアップグレードされています。このモデルはハイブリッドエキスパート(MoE)アーキテクチャを採用し、卓越したマルチモーダル処理能力を提供します。
Qwen3-VLはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認識と推論能力、長文脈のサポート、強力な空間と動画の動的理解能力、そして優れたエージェント対話能力を備えています。
bartowski
これはQwen3-VL-2B-Instructモデルの量子化バージョンで、llama.cppツールとimatrix方法を使用して、さまざまな量子化レベルのモデルファイルを生成し、さまざまなハードウェア環境で高効率に動作させることができます。このモデルは20億パラメータのマルチモーダルビジュアル言語モデルで、画像とテキストの相互作用をサポートしています。
Qwen3-VL-2B-ThinkingはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強化された空間と動画の動的理解能力、およびより強力なエージェント対話能力を備えています。このモデルは2Bのパラメータ規模を採用し、指令版と強化推論の思考版をサポートしています。
Qwen3-VLはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強力な空間と動画の動的理解能力、そして優れたエージェント対話能力を備えています。
Qwen3-VLは通義シリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強力な空間と動画の動的理解能力、そして優れたエージェント対話能力を備えています。
このプロジェクトは、LightX2Vチームによって開発された万2.2蒸留モデルの量子化GGUFバージョンを提供しています。これは、画像から動画への変換や動画生成タスクに特化しています。このバージョンは最適化されており、ComfyUI - GGUFなどのツールと連携して、効率的な推論性能を提供します。
lightx2v
LoRAに基づく4ステップ推論の高性能動画生成モデルで、Wan2.2蒸留モデルから抽出されたLoRA重みを持ち、柔軟なデプロイメント、効率的なストレージ、優れた生成品質という特徴を備えています。
FAL AIをベースにしたロゴ生成サーバーで、画像生成、背景除去、自動スケーリング機能を提供します。
FAL画像ビデオMCPサーバーは、高性能のMCPプロトコルサーバーで、FAL AIの画像およびビデオ生成に特化しており、ローカルマシンへの自動ダウンロードをサポートしています。ClaudeなどのMCP互換クライアントに適した公共URL、データURL、およびローカルファイルパスを提供します。
Google Gemini APIをベースにしたMCPサーバーで、画像生成機能を提供し、テキストプロンプトによる画像作成をサポートし、生成された画像を自動的にImgBB画像ホスティングサービスにアップロードします。
完全なウェブサイトアイコンセットを自動生成するMCPサービスで、PNG画像またはURLからさまざまなサイズのfavicon、Appleタッチアイコン、およびウェブアプリケーションマニフェストファイルを作成できます。
AIビデオ生成MCPサーバーは、テキストと画像入力をサポートして動画ビデオを生成し、様々なパラメーター制御とモデル選択を提供します。
MiniMax MCP JSは、JavaScript/TypeScriptで実装されたMiniMaxモデルコンテキストプロトコルツールキットで、テキスト読み上げ、画像生成、動画生成、声のクローンなどの機能を提供し、複数の設定方法と転送モードをサポートします。
MCPプロトコルに基づくYouTube APIブリッジサーバーで、AIアシスタントが動画の字幕を取得し要約を生成するために使用されます。
これは、自然言語処理、画像生成から自動化ワークフローまで、複数の分野にまたがる多数のオープンソースAIプロジェクトのリストです。これらのプロジェクトは、開発者がAI技術を利用して、チャットボット、コード生成ツール、データ処理システムなどの様々なアプリケーションを構築するのを支援することを目的としています。
OpenRouter APIに基づく自動コードドキュメント生成ツールで、コードライブラリのディレクトリ構造とファイル内容を分析し、自動的にドキュメント、テスト計画、およびコードレビューレポートを生成します。
Model Context Protocol (MCP)に基づくサービスで、YouTube動画から自動的に字幕を抽出し、専門的なLinkedIn投稿草稿を生成します。
OpenRouter APIに基づく自動コードドキュメント生成ツールで、コードリポジトリの構造と内容を分析して、ドキュメント、テスト計画、コードレビューレポートをインテリジェントに生成します。
モーダルMCPツールボックスは、Modalプラットフォーム上で動作するツールの集合で、モデルコンテキストプロトコル(MCP)に基づいており、LLMにPythonサンドボックスコード実行やFLUXモデルによる画像生成などの拡張機能を提供します。
ComfyUI MCPサーバーは、ComfyUIとMCPを統合するサービス実装で、動作中のComfyUIサーバーと併用する必要があります。テキストから画像の生成、画像のダウンロード、カスタムワークフローの実行などのさまざまな組み込みツールを提供し、UVまたはDocker方式での実行をサポートします。
Vidu MCPサーバーは、Model Context Protocolに基づくサーバーで、Vidu動画生成APIとやり取りし、画像から動画への変換、生成状態の確認、画像のアップロード機能を提供します。
Luma API MCPは画像と動画の生成サービスを提供するプロジェクトで、ユーザーはAPIキーを介してアクセスでき、複数のアスペクト比、モデル、解像度オプションをサポートし、参照画像や動画のキーフレームを通じて生成結果を制御できます。
火山エンジンのSeedream 4.0 APIに基づくMCPツールセットで、文章から画像生成、画像から画像生成、複数画像融合、シーケンシャル画像生成機能を提供し、七牛雲自動アップロード、プロンプトテンプレート、画像のローカル保存をサポートします。
TypeScriptベースのMCPサーバーで、AI画像および動画生成機能を提供します。GPT4O Image GeneratorのAPIキーが必要です。
このプロジェクトはMCPプロトコルとpython - pptxライブラリに基づくPPT作成サービスで、チャットインタラクションを通じてPowerPointプレゼンテーションを動的に作成、編集、保存することをサポートしています。スライドの追加、画像や表の挿入などの様々な機能を提供し、ダウンロードリンクを生成し、Base64形式でエクスポートすることもできます。
詳細な架空世界を構築するためのモデルコンテキストプロトコルで、自動画像生成をサポートします。