アリババの通義実験室がQwen3-VL-EmbeddingとQwen3-VL-Rerankerをオープンソース化。多モーダル検索をキーワード一致から意味的整合へ進化させ、画像・動画の高精度検索を実現。....
小鵬自動車の会長であるイェ・シャオポン氏は発表で、同社の2026年の戦略は「物理AI」と「グローバル化」に焦点を当てていると発表しました。これは、小鵬が技術の実用化と量産プロセスを加速していることを示しています。イェ氏は2026年が飛躍の年になるとし、第二世代のVLAなどの革新技術を発表することを計画しており、L4レベルの自動運転を実現する予定です。
Xpeng自動車は、2026年グローバル新製品発表会で、「物理AI」と「グローバル化」を年間の核心戦略として発表し、企業が技術探索から実践応用へと転換したことを示しました。物理AI技術は全面的に導入され、スケーラブルな量産が実現され、画期的な製品納入計画も発表されました。
LightricksがLTX-2モデルをオープンソース化。20秒の4K高画質動画生成を可能にし、映像・音声・口元・環境音・音楽の完全同期を実現。モデル・学習コード・評価基準・ツールキットをGitHubで公開し、コミュニティから高い関心を集めている。....
スマートホワイトボード上で画像、動画、テキストを生成、編集、強化し、ワンストップのクリエイティブプラットフォームです。
AI 画像および動画生成を高速化し、創造力を高めます。
RankYakは、低競争キーワードを見つけ、月次コンテンツ計画を作成し、SEO最適化記事を自動的に作成して公開することで、トラフィックとランキングを向上させる、SEOの成長を自動化できるツールです。
Lovart AIデザインエージェントは画期的なAIデザインツールで、テキストの指示を驚くほどの視覚効果に変換し、デザインのワークフローを自動化します。
Anthropic
$105
入力トークン/百万
$525
出力トークン/百万
200
コンテキスト長
Google
$0.7
$2.8
1k
Alibaba
-
$1
$10
256
$15.8
$12.7
64
Bytedance
$0.8
$2
128
Baidu
32
Xai
$1.4
$10.5
Shawon16
これはVideoMAE-baseアーキテクチャをベースに微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASLデータセットで200エポック訓練され、TimeSformerアーキテクチャを使用して動画シーケンスを処理します。
これはVideoMAE-baseアーキテクチャに基づいて微調整された動画理解モデルで、手話認識タスクに特化して最適化されています。モデルはWLASL100データセットで200エポック訓練され、動画動作認識能力を備えています。
これはMCG - NJU/videomae - baseモデルを未知のデータセットで微調整した動画理解モデルで、20エポックの学習を経て、評価セットで13.31%の正解率を達成しました。このモデルは動画分析タスクに特化して最適化されています。
jayn7
騰訊の混元ビデオ1.5モデルの量子化GGUFバージョンで、テキストから動画生成タスクに特化しており、720P高画質動画生成をサポートし、使用効率を最適化するための複数の量子化精度バージョンを提供します。
このプロジェクトでは、騰訊のHunyuanVideo-1.5-I2V-720pモデルの量子化GGUFバージョンを提供しており、画像を動画に変換するタスクや動画生成タスクに特化しています。このモデルは、静止画像を高品質な動画コンテンツに変換することができ、性能を最適化するための複数の量子化バージョンを提供しています。
hum-ma
Wan2.2-TI2V-5B-Turbo-GGUFは、quanhaol/Wan2.2-TI2V-5B-Turboベースモデルから変換された画像を動画に変換するモデルで、最適化されて4GB GPUで動作可能で、優れた汎用性と高効率な推論能力を持っています。
これはVideoMAE-baseアーキテクチャに基づき、WLASLデータセットで微調整された動画動作認識モデルで、手話認識タスクに特化して最適化されており、評価セットで48.22%の正解率を達成しています。
QuantStack
これはNVIDIA ChronoEdit-14B-DiffusersモデルのGGUF量子化バージョンで、画像から動画への変換タスクに特化しています。このモデルは元のモデルのすべての機能を保持し、同時にGGUF形式によってデプロイと実行効率を最適化しています。
unsloth
Qwen3-VL-2B-ThinkingはQwenシリーズで最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル感知と推論能力、長いコンテキストサポート、強化された空間と動画の動的理解能力、およびより強力なエージェント対話能力を備えています。このモデルは2Bのパラメータ規模を採用し、指令版と強化推論の思考版をサポートしています。
このプロジェクトは、LightX2Vチームによって開発された万2.2蒸留モデルの量子化GGUFバージョンを提供しています。これは、画像から動画への変換や動画生成タスクに特化しています。このバージョンは最適化されており、ComfyUI - GGUFなどのツールと連携して、効率的な推論性能を提供します。
Qwen
Qwen3-VLはアリババが発表した最新世代のビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力を備え、長いコンテキスト処理と動画理解をサポートし、指令最適化バージョンを提供します。
hyperchainsad
これはWan2.2-T2V-A14Bベースモデルを基にトレーニングされたテキストから動画へのLoRAモデルで、AI Toolkitツールキットを使用してトレーニングされ、テキストから動画への変換能力を強化するために特別に設計されています。
bartowski
これはServiceNow-AIのApriel-1.5-15b-Thinkerモデルの量子化バージョンで、llama.cppのimatrix技術を使用して最適化されており、さまざまなハードウェア条件下で効率的に動作します。モデルは画像テキストからテキストへのタスクをサポートし、さまざまな量子化レベルを提供して異なるニーズに対応します。
deadpoolx22
これはAI技術に基づくテキストから動画へのLoRAモデルで、アリタキャラクターに特化して最適化訓練されており、画像生成などのシーンに使用でき、関連分野のアプリケーションに便利をもたらします。
jude1903
AJWWan22-loraは、テキストから動画を生成するLoRAモデルで、AI Toolkitを使って訓練され、画像生成タスクに特化しています。このモデルは特定のトリガーワードを必要として、生成機能を活性化します。
Qwen3 - VLは通義シリーズで最も強力な視覚言語モデルで、卓越したテキスト理解と生成能力、深い視覚認知と推論能力、長いコンテキストのサポート、強力な空間と動画理解能力、そして優れたインテリジェントエージェント対話能力を備えています。このバージョンは235Bパラメータの思考強化版で、より複雑な推論タスクをサポートします。
yslan
STream3Rは、因果Transformerに基づく拡張可能なシーケンス3D再構築モデルであり、点群図予測をデコーダのみのTransformer問題として再定義します。ストリーミング処理フレームワークを導入し、因果アテンションを利用して画像シーケンスを効率的に処理し、従来の方法がしばしば失敗する動的シーンを含む、様々な挑戦的なシーンにうまく汎化できます。
Gemma 3nはGoogleが開発した軽量で最先端のマルチモーダルオープンモデルで、Gemini技術をベースに構築されています。低リソースデバイス向けに設計され、テキスト、画像、ビデオ、音声の入力をサポートし、テキスト出力を生成します。選択的パラメータ活性化技術を採用し、4Bパラメータ規模で効率的に動作します。
TIGER-Lab
PixelReasonerはQwen2.5-VL-7B-Instructを基にした視覚言語モデルで、好奇心駆動型強化学習で訓練され、画像テキストからテキストへのタスクに特化しています。
second-state
Qwen2.5-VL-7B-Instruct-GGUFはQwen2.5-VL-7B-Instructモデルの量子化バージョンで、マルチモーダル対話をサポートし、画像テキストからテキストへの変換タスクで優れた性能を発揮します。このバージョンはGGUF形式で最適化されており、LlamaEdgeなどのプラットフォームで効率的に動作します。
これはGoogleカレンダーのMCPサーバープロジェクトで、Googleカレンダーとの統合機能を提供し、標準化されたインターフェースを通じてカレンダーイベントの読み取り、作成、更新、検索を可能にします。画像からのイベント追加、カレンダー分析、出席状況確認、イベントの自動調整などの機能をサポートしています。
adb - mcpは、MCPプロトコルを通じてLLMにインターフェースを提供し、Adobeツール(PhotoshopやPremiereなど)を制御するAIエージェントを作成する概念実証プロジェクトです。このプロジェクトには、MCPサーバー、Nodeコマンドプロキシサーバー、およびAdobeアプリケーションプラグインが含まれており、自然言語の命令でAdobeソフトウェアを操作でき、画像およびビデオ編集の自動化に適しています。
Model Context Protocol(MCP)に基づく軽量級のサーバーで、画像処理とクラウドアップロードに特化しています。サイズ変更、変換、最適化、および複数のクラウドストレージサービスへのアップロードをサポートし、AIアシスタントや自動化ワークフローに適しています。
MLX Whisperをベースとした音声文字起こしMCPサーバーで、ローカルファイル、Base64オーディオ、YouTube動画の文字起こしに対応。AppleのMシリーズチップ用に最適化されています。
SAP GUIの自動化に使用されるMCPサーバーで、トランザクションの起動、画面インタラクション、画面キャプチャなど、プログラムによるSAPトランザクションの制御ツールを提供します。
ScreenPilotはMCPサーバーを介してLLMがデバイスを全面的に制御できるツールで、画面自動化ツールキットを提供し、画面キャプチャ、マウスとキーボードの制御などの機能をサポートし、自動化、教育、エンターテインメントに適しています。
これは、自然言語処理、画像生成から自動化ワークフローまで、複数の分野にまたがる多数のオープンソースAIプロジェクトのリストです。これらのプロジェクトは、開発者がAI技術を利用して、チャットボット、コード生成ツール、データ処理システムなどの様々なアプリケーションを構築するのを支援することを目的としています。
MCPエージェントツールアダプタープロジェクトは、MCPプロトコルを通じてモジュール化されたツールの呼び出しを実現し、Google ADKとLangGraphの2種類のエージェントフレームワークをサポートし、動的な推論とツール計画能力を提供します。
UnsplashスマートMCPサーバーは、AIエージェント向けの専用画像ライブラリ統合ソリューションです。スマートな検索、自動帰属、およびプロジェクト認識型の画像管理機能を提供し、開発者のビジュアルコンテンツ取得プロセスを簡素化します。
PlaywrightとTypeScriptに基づく強力なテスト自動化フレームワークで、ページオブジェクトモデルの設計パターンを採用し、データ駆動テストをサポートし、MCPサービスを統合してテストの録画と再生機能を強化しています。
PentestThinkingMCPは、大規模言語モデルとMCPプロトコルに基づく自動化された浸透テストフレームワークで、Beam SearchとMCTSアルゴリズムを通じて攻撃経路を計画し、CTF、HTB、および実際の浸透テストに対してステップの推論、ツールの推薦、重要な経路の分析を提供します。
Markdownify MCP UTF - 8拡張版は、多言語コンテンツの変換をサポートするMarkdown処理サービスで、UTF - 8エンコーディングのサポートを最適化し、PDF/画像/音声・動画/Office文書などのさまざまな形式のMarkdown変換機能を提供し、Windowsシステムに特化した最適化が行われています。
小红书MCPサーバーとCLIツールで、ログイン、投稿、検索、推薦などの自動化機能をサポートし、画像URLの自動ダウンロードと正確なタイトル検証を提供します。
Runbook MCP Serverは、Claude Desktopを通じてユーザーがカスタム操作マニュアル(runbooks)を実行できるサービスで、自動化運用と手動テスト計画の実行をサポートします。
MCP FetchはClaude Desktop用に設計されたウェブコンテンツ取得と画像処理サービスツールで、ウェブコンテンツ、タイトルの自動抽出と画像処理の最適化をサポートしています。
awesome - mcpは、MCP(Model Context Protocol)サーバーを収集して共有するプロジェクトで、AI、データベース、ブラウザ自動化、コード管理、画像生成、検索、ストレージなどのさまざまな分野の公式およびコミュニティ貢献によるMCPサーバーの実装を網羅しています。
MiniMaxがCoding Planユーザー向けにカスタマイズしたMCPサーバーで、AI駆動のウェブ検索と画像分析ツールを提供し、コード開発ワークフローに最適化されており、Claude DesktopやCursorなどのMCPクライアントに統合してプログラミング体験を強化できます。
NASA MCP Serverは、Model Context Protocol規格に準拠したサーバーで、AIモデルに対して標準化されたインターフェースを介してNASAの20種類以上の公開APIデータソース(天文写真、火星探査データ、地球観測画像など)にアクセスできます。このプロジェクトは、統一されたデータ形式変換、パラメータ検証、レート制限管理を提供し、複数のプラットフォームで動作します。
SmartLead MCP Serverは、AIアシスタント向けのコールドメール自動化ツールです。116以上のSmartLead APIインターフェースを提供し、ClaudeやCursorなどのさまざまなAIツールをサポートし、美しいインストール画面と包括的なメールマーケティング機能を備えています。
MCP URL2SNAPは、軽量のModel Context Protocol (MCP)サーバーで、LLMが指定したURLを通じてウェブページのスクリーンショットを取得し、画像のアクセスリンクを返すことができます。このプロジェクトは、ウェブページのスナップショットの生成と共有プロセスを簡素化し、Claude DesktopなどのAIアプリケーションや自動化ワークフローに統合するのに適しています。