ByteDanceとNTUが開発したオープンソースフレームワーク「StoryMem」は、革新的な「視覚的記憶」メカニズムにより、単一ショット動画生成モデルをマルチショット長編動画生成ツールに進化させ、1分以上の自然なカット割りでキャラクターとシーンの一貫性を保つ物語動画を自動生成し、オープンソースAI動画技術の映画級ナラティブへの発展を促進します。....
OpenAIがChatGPTの「年間レビュー」機能をリリースし、ユーザーにパーソナライズされたAIとの対話アーカイブを生成しました。レポートではメッセージの総数を統計し、チャットの習慣を分析し、ハイフクエンシーなテーマに基づいてピクセルスタイルのカスタム画像を生成します。
マイクロソフトが画像から3DツールTRELLIS.2をオープンソース化。1枚の画像だけで、テクスチャ付きの3Dモデルをすぐに生成でき、出力は.glb形式でBlenderやUnityなどのプラットフォームと互換性があります。このツールには4Bモデルが採用されており、512³から1536³の解像度の画像処理をサポートしています。NVIDIA H100グラフィックカードで、512³のモデルを作成するには約3秒のみです。
アイシテクノロジーとアリババクラウドは全面的な協力契約を締結しました。両社はAIビデオ生成分野で深く協力し、モデル、計算リソース、製品、エコシステムおよびビジネスなど多方面にわたって取り組む予定です。技術の発展を共同で推進するものです。アリババクラウドはアイシテクノロジーにインフラストラクチャの支援を提供し、そのグローバルな展開を支援します。
Metaの単画像3D再構築モデルで、SAM 3の分割と幾何学的なテクスチャレイアウト予測を融合して3Dアセットを生成します。
SpotScribeは、瞬時にSpotifyのポッドキャストの文字起こしを抽出し、要約を生成し、インタラクティブなチャットもサポートします。
PiはAI原生技術アーキテクチャのスマートなプレゼンテーションドキュメント生成ツールで、迅速に専門的で美しいプレゼンテーションを生成できます。
AI画像処理技術で、あなたの画像にテクスチャを追加し、リアルタイムで見事なビジュアル変換を作成します。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$4
$16
$2
$20
city96
FLUX.2-devはblack-forest-labsによって開発された画像生成および編集モデルで、GGUF形式に変換され、画像生成タスクに最適化されており、拡散モデルアーキテクチャを採用し、ComfyUIフレームワークでの使用をサポートしています。
bartowski
これはsqu11z1のHypnos-i1-8Bモデルの量子化バージョンで、llama.cppツールと特定のデータセットを使用して量子化処理が行われています。このモデルはLlama-3アーキテクチャに基づいており、複数の量子化タイプを提供し、テキスト生成タスクをサポートし、推論や対話などの様々なアプリケーションシーンに適しています。
pramjana
Qwen3-VL-4B-Instructはアリババが開発した40億パラメータの視覚言語モデルで、Qwen3アーキテクチャに基づいて開発され、マルチモーダル理解と対話タスクをサポートします。このモデルは強力な画像理解とテキスト生成能力を備え、複雑な視覚言語対話シーンを処理することができます。
Kiy-K
Fyodor-Q3-8B-Instructは、スマート推論と堅牢なコード生成のために設計された高忠実度の命令調整モデルです。Qwen3 - 8Bアーキテクチャに基づき、高ランクのLoRA設定で訓練されており、コーディング前の計画立案に長けており、複雑なソフトウェアエンジニアリングタスクに非常に適しています。
yaleiyaleichiling
初の本当にオープンソースで制限のない2次元ビデオ生成モデル。Wan2.2-5Bアーキテクチャに基づいており、VRAMが6GBあれば動作し、見事な2次元アニメコンテンツを生成できます。
Owen777
UltraFluxは、Fluxベースの拡散トランスフォーマーで、ネイティブ4Kのテキストから画像への生成に特化しています。データ、アーキテクチャ、損失関数の協調設計により、様々なアスペクト比で一貫した画像品質を維持することができます。
これはREAP方法に基づいて、MiniMax-M2の40%の専門家を均等に剪定して得られた139Bパラメータの大規模言語モデルです。GLMアーキテクチャと専門家混合(MoE)技術を採用し、llama.cppを通じて様々な量化処理を行い、テキスト生成タスクに適しています。
TeichAI
このモデルはQwen3 - 4Bアーキテクチャに基づく知識蒸留モデルで、Gemini 2.5 Flashによって生成された約5440万個のトークンを使用してトレーニングされ、Gemini - 2.5 Flashの振る舞い、推論プロセス、知識を単一のデータセットに統合することを目的としています。
mradermacher
このプロジェクトでは、Qwen-4B-Instruct-2507-Self-correctモデルの静的量子化バージョンを提供しています。テキスト生成、偏差緩和、自己修正などのタスクをサポートしています。このモデルはQwen-4Bアーキテクチャに基づいており、指令微調整と自己修正訓練を経て、様々な量子化バージョンを提供して異なるハードウェア要件に対応しています。
Fyodor-StarCoder2-7B-MoEはStarCoder2-7Bをベースにした強化版で、ハイブリッドエキスパートアーキテクチャを採用し、3つのMoE層、6つのエキスパートネットワーク、top-2ルーティングメカニズムを持ち、コード生成、関数呼び出し、エージェントタスクの分野で優れた性能を発揮します。
Maxlegrec
BT4モデルはLeelaChessZeroエンジンの背後にあるニューラルネットワークモデルで、チェス対局に特化しています。このモデルはTransformerアーキテクチャに基づいて設計されており、過去の手順に基づいて次の最適な手順を予測し、局面を評価し、手順の確率を生成することができます。
これはManoghn/voicecraft-mistral-7bモデルの静的量子化GGUFバージョンで、Mistral-7Bアーキテクチャに基づいており、コンテンツ生成とテキスト生成タスクに特化しています。このバージョンでは、2.8GBから14.6GBまでのさまざまな量子化レベルが提供されており、ユーザーはハードウェア条件とパフォーマンス要件に応じて適切なバージョンを選択できます。
aich007
FLAN-T5 SmallはGoogleが開発した指令微調整テキスト生成モデルで、T5アーキテクチャの小型バージョンに基づいています。このモデルは、さまざまなNLPタスクで指令微調整が行われ、さまざまなテキスト生成指令を理解して実行することができます。
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
noctrex
Aquif-3.5-Max-42B-A3Bは420億パラメータの大規模言語モデルで、MXFP4_MOE量子化処理を行っており、高品質なテキスト生成能力を維持しながら推論効率を最適化しています。このモデルは先進的な混合専家アーキテクチャに基づいており、様々な自然言語処理タスクに適用できます。
tlennon-ie
Qwen-Edit-Skinは、Qwen/Qwen-Image-Edit-2509モデルをベースに微調整されたLoRAモデルで、画像中の人物の肌のリアリティと細部を向上させることに特化しており、より自然で繊細な肌のテクスチャを生成します。
hetbhagatji09
これはMiniLMアーキテクチャに基づく軽量級の文埋め込みモデルで、高品質の文ベクトル表現を生成するために特別に設計されています。モデルはMultipleNegativesRankingLossを使用してトレーニングされ、文の類似度計算と特徴抽出タスクで優れた性能を発揮します。
unsloth
Qwen3-VLは通義シリーズで最も強力なビジュアル言語モデルで、テキスト理解と生成、ビジュアル認知と推論、コンテキスト長、空間およびビデオの動的理解、エージェントインタラクション能力などの面で全面的にアップグレードされています。このモデルは密集アーキテクチャとハイブリッドエキスパートアーキテクチャを提供し、エッジデバイスからクラウドまでの柔軟なデプロイをサポートします。
oberbics
このモデルはMetaのLlama-3.1アーキテクチャをベースに微調整されたテキスト生成モデルで、TRLライブラリとGRPO(Group Relative Policy Optimization)手法を用いて強化学習トレーニングを行い、特に論証生成タスクに最適化されています。
Qwen
Qwen3-VL-30B-A3B-Instructは通義シリーズで最も強力なビジュアル言語モデルで、ハイブリッドエキスパートモデルアーキテクチャを採用し、優れたテキスト理解と生成能力、深いビジュアル感知と推論能力を備え、256Kの長いコンテキストとビデオ理解をサポートし、さまざまなデバイスで推論が可能です。
AI開発アシスタントMCPサーバーは、AIベースのコード開発ツールキットで、コードアーキテクチャ生成、UIスクリーンショット分析、コードレビューなどの機能を提供し、Cursor用に設計されています。
Blueprint MCPは、Arcadeエコシステムに基づくチャート生成ツールで、Nano Banana Proなどの技術を利用して、コードベースとシステムアーキテクチャを分析し、アーキテクチャ図、フローチャートなどのビジュアルチャートを自動生成し、開発者が複雑なシステムを理解するのを支援します。
FileScopeMCPはTypeScriptベースのコード分析ツールで、ファイルの重要度スコアを計算し、依存関係を追跡し、可視化チャートを生成し、ファイルの要約を追加することで、開発者がコードライブラリの構造を迅速に理解するのを支援します。多言語のプロジェクト分析をサポートし、Mermaidチャートの生成と永続的なストレージ機能を提供し、Cursorのモデルコンテキストプロトコルと統合できます。
DB MCP Serverは、マルチデータベースをサポートするサーバーで、モデルコンテキストプロトコル(MCP)を実装し、AIアシスタントに構造化されたデータベースアクセス機能を提供します。MySQLとPostgreSQLをサポートし、複数のデータベースに同時に接続でき、専用ツールを自動生成し、明確なアーキテクチャ設計に準拠しています。
Notebook Intelligence (NBI) は、JupyterLab用に設計されたAIコーディングアシスタントおよび拡張可能なAIフレームワークで、GitHub Copilotや他のLLMプロバイダーのモデル(ローカルのOllamaモデルを含む)をサポートします。コード生成、自動補完、チャットインターフェイスなどの機能により生産性を大幅に向上させ、モデルコンテキストプロトコル(MCP)サービスの統合をサポートします。
Gemini UIデザインサーバーは、MCPプロトコルに基づく企業向けUI/UXデザインとフロントエンド実装の専門システムで、Google Gemini 2.5 PROを統合することで、専門的なUIコンポーネントデザイン、コードレビュー、フロントエンドコード生成、アーキテクチャコンサルティングサービスを提供します。
多言語コード依存関係分析サービスで、依存関係グラフとアーキテクチャ評点を生成します
ToolBoxはAI駆動の自動化ツール開発プラットフォームで、モジュール化アーキテクチャ、AI支援ツール生成、企業レベルのサービス統合、リアルタイム更新機能を提供します。
これは、自然言語処理、画像生成から自動化ワークフローまで、複数の分野にまたがる多数のオープンソースAIプロジェクトのリストです。これらのプロジェクトは、開発者がAI技術を利用して、チャットボット、コード生成ツール、データ処理システムなどの様々なアプリケーションを構築するのを支援することを目的としています。
PlaywrightとAxe - coreに基づく自動化されたウェブページのアクセシビリティスキャンツールで、WCAG準拠チェック、アノテーション付きスクリーンショット、詳細なレポート生成機能を提供します。
MCPプロジェクトオーケストレーションツールで、テンプレート管理、プロンプト管理、Mermaidチャート生成機能を提供します
AI駆動のチャートとプロトタイプ作成MCPサーバーで、複数の大規模言語モデルを統合し、自然言語の説明に基づいて、さまざまなスタイルの.drawio形式のチャートとHTMLインタラクティブな製品プロトタイプをインテリジェントに生成できます。
MCP Mermaidは、AIを通じて動的にMermaidチャートとグラフを生成するツールで、複数のエクスポート形式とテーマ設定をサポートし、さまざまな開発環境とプラットフォームに適しています。
TRELLIS Blenderプラグインは、高度なテキスト/画像から3Dモデルを生成する機能をBlenderに統合します。テキストまたは画像を通じてテクスチャ付きの3Dメッシュを生成し、詳細調整機能も提供します。プラグインはMCPサービスも統合しており、Cursor/Windsurfなどのツールと通信できます。
Image Gen MCP Serverは、Model Context Protocol(MCP)標準プロトコルを通じて、さまざまなLLMチャットボットにクロスプラットフォーム、多モデルの画像生成機能を提供する汎用AI画像生成サービスです。OpenAIとGoogleの複数の画像モデルをサポートし、テキスト対話からビジュアルコンテンツへのシームレスな変換を実現します。
ナプキンAI MCPサーバーは非公式のコミュニティによって維持されるツールで、Model Context Protocolを通じてAIアシスタント(Claudeなど)に情報グラフ、マインドマップ、フローチャートなどのビジュアルコンテンツを生成する機能を提供します。複数の出力形式(SVG、PNG、PPT)とストレージバックエンド(ローカル、S3、Google Driveなど)をサポートし、非同期処理、自動ポーリング、リトライメカニズムが含まれています。
rag - mcpは過度に設計された検索強化生成システムで、Pythonサーバーを通じてさまざまなテキスト検索モード(意味検索、質問応答検索、スタイル検索)を提供し、PostgreSQLとpgvectorを使用してテキスト埋め込みベクトルを保存し、AIエージェントとの対話をサポートします。アーキテクチャは複雑ですが拡張可能です。
このプロジェクトはMCPプロトコルとpython - pptxライブラリに基づくPPT作成サービスで、チャットインタラクションを通じてPowerPointプレゼンテーションを動的に作成、編集、保存することをサポートしています。スライドの追加、画像や表の挿入などの様々な機能を提供し、ダウンロードリンクを生成し、Base64形式でエクスポートすることもできます。
Pocket MCP Managerは、クライアント - サーバーアーキテクチャを採用した柔軟なMCPサーバー管理システムで、中央インターフェイスを通じて複数のMCPサーバーの管理を簡素化します。ユーザーは、サーバーの集中追加、選択的起動、APIキーの生成、および単一のプロキシを介した接続が可能で、ClaudeやCursorなどのクライアントに適しています。
マーキュリー特殊作戦MCPサーバーは革新的なAIツールプラットフォームで、動的なプロンプト生成とテンプレート組み立てをプログラム可能なツールとしてAIアシスタントに提供します。これはモジュール化アーキテクチャを採用し、31の技術スタック、10の分析次元、34のテンプレートコンポーネントをサポートし、6つのツールを通じて技術固有のコンテンツ生成を実現し、AIと専門コンテンツのやり取り方法を根本的に変えました。