アリババは、テキスト能力に視覚言語機能を強化したマルチモーダル大規模モデル「Qwen3.7-Plus」を発表。GUIとCLIの融合により、プロトタイプからソフトウェアエンジニアリングまでのエンドツーエンド自動化を実現し、Vision Arenaランキングで高い性能を示す。エージェント基盤として統合。.....
オープンソースのOpenAI Responses APIゲートウェイ「GodeX」v1.1.0がリリースされました。デフォルトモデルがMiniMax-M3に切り替わり、マルチモーダル理解と思考制御に最適化。智譜のネイティブネットワーク検索結果の復元ブリッジも実現。開発者向けに統一されたローカルゲートウェイソリューションを提供し、CodexやCLIツールなどの複雑なプロトコル統合を簡素化、大規模モデルエコシステムのプロトコル断絶を加速的に解消します。....
アリババクラウド百炼は2026年5月29日にすべてCLI化され、そのCLIプロジェクトをオープンソース化しました。この取り組みにより、AIエージェントへの接続と開発が全スタック一体化の変革をもたらしました。CLIは主要なモデル、ワークフロー、知識ベース、記憶管理、インターネット検索、マルチモーダルファイル処理などの核心的な能力を軽量なコマンドラインインターフェースにカプセル化し、開発者はインストールと認証後に効率的に利用できます。
MicrosoftのWindows 11に、タスクバー上のAIアシスタント「Ask Copilot」とExcelデータ抽出機能「Click to Do」が追加される。初期はFrontier試用企業向けで、正式リリース時期は未定。....
TikTokおよびYouTubeの人気AIビデオエフェクトを1クリックで復元できるビデオ生成プラットフォーム。
OpenAI公式が提供するコマンドラインツールで、ターミナルからREST APIの各機能を直接呼び出せます。
無料体験で、人気のテンプレートを使ってAIビデオを作成します。10種類以上のAIモデルをサポートし、1クリックで生成できます。
AI UGC動画生成ツール。3分以内で動画広告を生成。300人以上のクリエイター、20種類以上の言語対応
Xai
$1.4
入力トークン/百万
$10.5
出力トークン/百万
256
コンテキスト長
Tencent
$6
$18
sd2-community
Stable Diffusion v2-1-unclipはStable Diffusion 2.1をベースに微調整された拡散モデルで、テキストプロンプトとCLIP画像埋め込みを受け取り、画像バリエーションの作成やテキストから画像へのCLIP事前学習モデルと組み合わせて使用できます。
AbstractPhil
MM - VAE Lyraは、テキスト埋め込み変換に特化したマルチモーダル変分自己符号化器で、幾何学的融合技術を採用しています。CLIP - LとT5 - baseモデルを組み合わせ、テキスト埋め込みの符号化と復号化タスクを効果的に処理でき、マルチモーダルデータ処理に革新的な解決策を提供します。
bn22
これはHugging Faceモデルセンターに公開されたトランスフォーマーモデルです。モデルカードはシステムによって自動生成され、具体的なモデル情報はさらに補足する必要があります。
mlfoundations
Gelato-30B-A3Bは、GUIコンピュータ使用タスクに使用される最先端の基礎モデルで、Click-100kデータセットで訓練され、複数のベンチマークテストで以前の専用コンピュータ基礎モデルやより大きなビジュアル言語モデルを上回っています。
birder-project
これはBolyaらのPE-Coreモデルに基づくViT-L14画像エンコーダで、画像特徴抽出のためにBirder形式に変換されています。このモデルは元の重みとアーキテクチャを保持していますが、CLIP投影層を削除してオリジナルの画像埋め込みを出力するようになっており、画像分類と検出タスクに適した汎用の視覚バックボーンネットワークです。
anhquanlam
これは自動生成された🤗 Transformersモデルカードで、具体的なモデル情報が欠けています。
redlessone
DermLIPはDerm1Mデータセットを基に訓練された皮膚科学のビジュアル言語モデルで、CLIPスタイルの対比学習方法を採用し、皮膚科学の画像とテキストに特化して最適化されており、ゼロショット分類、少サンプル学習などの様々なアプリケーションシーンをサポートします。
DermLIPは、皮膚科学分野に特化したビジュアル言語モデルで、最大の皮膚科学画像テキストコーパスであるDerm1Mを基に訓練されています。このモデルはCLIPスタイルのアーキテクチャを採用しており、皮膚病関連の様々なタスク、ゼロショット分類、少ショット学習、クロスモーダル検索、概念注釈などを実行できます。
ibm-esa-geospatial
Llama3 - MS - CLIPは、CLIPファミリーの中で初めてマルチスペクトル画像を理解できる視覚言語モデルです。SSL4EO - S12 - v1.1データセットの100万個の画像 - テキストペアと生成された説明を基に訓練され、ほとんどのベンチマークテストで他のRGBベースのモデルよりも優れた性能を発揮します。
amildravid4292
OpenCLIP-ViT-L-14モデルをベースに、テスト時レジスタ技術を導入し、モデルの解釈可能性と下流タスクの性能を向上させます。
OpenCLIP - ViT - B - 16アーキテクチャに基づく視覚言語モデルで、テスト時レジスタを導入して内部表現を最適化し、特徴マップのアーチファクト問題を解決します。
nicolauduran45
cross-encoder/ms-marco-MiniLM-L6-v2をベースに微調整されたクロスエンコーダモデルで、気候科学分野のテキスト再ランキングと意味的検索に最適化されています。
これはクロスエンコーダーに基づく気候科学のテキスト再ランキングモデルで、気候科学分野の意味検索とテキスト関連性のランキングに特化しています。
mradermacher
Clinician-Note-2.0aは、医学分野に特化したテキスト生成モデルで、特に臨床記録や要約タスクに適しています。
lukahh
CLIP-ViT-B/32をファインチューニングした視覚言語モデルで、画像-テキストマッチングタスクに適しています
Clinician-Note-2.0aは医学分野に特化したテキスト生成モデルで、AI補助による臨床記録や要約生成に特に適しています。
ClinicianFOCUS
Clinician Noteは無料のAI記録係で、医患相互作用の転記テキストを臨床記録に変換します。
UCSC-VLAA
OpenVisionは完全オープンソースで高コストパフォーマンスな先進的な視覚エンコーダーファミリーで、マルチモーダル学習向けに設計されており、性能はOpenAI CLIPに匹敵またはそれを上回ります。
EduFalcao
CLIPアーキテクチャを基にファインチューニングされた視覚言語モデルで、植物病害のゼロショット分類に特化
SpursgoZmy
Table LLaVA 7Bはオープンソースのマルチモーダルチャットボットで、表画像の理解に特化して設計されており、表の質問応答、表のセル記述、構造理解などの様々な表関連タスクを実行できます。このモデルはLLaVA-v1.5アーキテクチャに基づいており、CLIP-ViT-L-336pxを視覚エンコーダーとして、Vicuna-v1.5-7Bを基礎となる大規模言語モデルとして使用しています。
Zen MCPは多モデルAI協調開発サーバーで、ClaudeやGemini CLIなどのAIコーディングアシスタントに強化されたワークフローツールとモデル間のコンテキスト管理を提供します。これは複数のAIモデルのシームレスな協調をサポートし、コードレビュー、デバッグ、リファクタリングなどの開発タスクを実現し、異なるワークフロー間で会話のコンテキストを維持することができます。
IDA Pro MCPは逆エンジニアリング用のサーバープラグインで、MCPプロトコルを介してクライアントツールとやり取りし、関数分析、コメントの変更、変数のリネームなどの機能を提供し、Cline、Roo Codeなどの複数のMCPクライアントをサポートします。
FastMCPは、TypeScriptに基づくフレームワークで、クライアントセッションをサポートするMCPサーバーを構築するために使用されます。ツール、リソース、プロンプトの簡単な定義を提供し、認証、セッション管理、画像と音声コンテンツの返却、ログ記録、エラー処理、SSE通信などの機能をサポートし、テストとデバッグ用のCLIツールも含まれています。
デスクトップコマンダーMCPは、Claudeデスクトップアプリケーションがターミナルコマンドを実行し、ファイルシステムを管理できるAIアシスタントツールです。コードの検索、編集、プロセス管理、リモートファイルの読み取りなどの機能をサポートします。
20万以上のアイコンの検索と検索を提供するMCPサーバーとCLIツールで、150以上のアイコンライブラリをサポートし、AIアシスタントと開発者が迅速にアイコンを取得して使用できるように支援します。
GitKraken CLIはコマンドラインツールで、複数のリポジトリのワークフロー管理、AIによるコミットメッセージとプルリクエストの生成を提供し、Git、GitHub、Jiraなどのツールを統合するためのローカルMCPサーバーを含んでいます。
Anna's ArchiveのMCPサーバーとCLIツールは、このプラットフォームのドキュメントを検索およびダウンロードするためのもので、APIキーを使用したアクセスをサポートしています。
Smithery CLIは、Model Context Protocol (MCP)サーバーを管理するコマンドラインツールで、複数のAIクライアントをサポートし、MCPサーバーのインストール、アンインストール、表示、実行機能を提供します。
napiはNanoAPIによって開発されたツールで、ソフトウェアアーキテクチャの複雑性を自動的に分析し、コードベースから機能モジュールを抽出することをサポートします。CLIとUIの両方の操作方法を提供し、主流のCI/CDプラットフォームと互換性があり、開発者がアーキテクチャ設計を最適化するのを支援します。
flyto-coreはデバッグ可能な自動化エンジンで、完全な実行トレース、任意のステップからの再実行、状態スナップショット機能を提供します。412個のモジュールをサポートし、ブラウザ自動化、データ処理、API統合など78のカテゴリをカバーしています。CLI、MCPサーバー、HTTP APIなどのさまざまな方法で使用できます。
ClickHouse MCPサービスは、ClickHouseデータベースに対するクエリと管理機能を提供するサーバーツールです。
LiteMCPは、MCP(モデルコンテキストプロトコル)サーバーをエレガントに構築するためのTypeScriptフレームワークです。ツール、リソース、およびプロンプトの定義を提供し、完全なTypeScript開発をサポートし、組み込みのログ記録、エラー処理、CLIデバッグツール、およびSSE伝送サポートを備えています。
Cycode CLIは、ローカルにインストールするアプリケーションで、コードリポジトリ内のセキュリティホールをスキャンします。これには、機密情報の漏洩、インフラストラクチャアズコードの誤った設定、ソフトウェアコンポーネント分析のホール、静的アプリケーションセキュリティテストの問題が含まれます。このツールは、リポジトリスキャン、パススキャン、コミット履歴スキャンなど、複数のスキャンタイプをサポートしており、特定の結果を除外するための無視ルール機能も提供しています。
dbt MCPサーバーは、dbtとのインタラクションツールを提供するサービスで、dbt CLI、Semantic Layer、Discovery APIなどの機能をサポートし、設定により複数のクライアントと統合して使用できます。
Open Data MCPはオープンソースプロジェクトで、MCPプロトコルを通じて公開データセットをLLMアプリケーションに迅速に接続することを目的としています。プロジェクトはCLIツールを提供し、2分での接続を実現し(現在はClaudeをサポート)、コミュニティ協力のフレームワークを構築して、開発者が簡単に公開データセットを貢献して公開できるようにします。核心的な目標は、すべてのLLMアプリケーションと数百万の公開データセットを接続するインフラストラクチャを構築することです。
ClippyはmacOSターミナルのクリップボードツールで、ファイル参照のコピー、GUI貼り付け、最近のダウンロード管理、パイプラインデータ処理、およびMCPサーバーのAI統合をサポートし、作業効率を向上させます。
小爱スピーカー音声通知ツールは、CLI/TUI/MCP/Webhookを介して小爱スピーカーに音声通知を送信することをサポートし、複数のスピーカールーティング、Dockerデプロイ、PM2常駐サービスを提供します。
MCPテストクライアントは、Claudeのサーバーとしても、被テストサーバーのクライアントとしても機能するミドルウェアで、開発段階でMCPサーバーをテストするために使用されます。サーバーのデプロイ、ツールの呼び出し、テストの実行、ログの閲覧などの機能をサポートし、CLIインターフェースを提供します。
OpenAPI仕様をMCP互換サーバーに変換するCLIツールで、複数のトランスポートプロトコルと認証方式をサポートし、AIエージェントがREST APIとやり取りしやすくなります。
AWS MCP Serverは、Model Context Protocol(MCP)を通じてAIアシスタントがAWS CLIコマンドを実行できるようにする軽量サービスで、AWS CLIドキュメントの検索とコマンドの実行機能を提供します。