Zopiaは世界初のエンドツーエンドのAIビデオディレクターAgentであり、ユーザーは創造的なテキストやストーリーの概要を入力するだけで、マルチエージェントによる協調作業によって、シナリオの分解、ショット設計、カメラ演出の生成、編集といったすべての工程を自動的に行い、高品質なビデオを出力できます。Kling3やVidu Q3などのビデオモデルを深く最適化し、本物のような人の場面表現を実現しました。
Tabbitブラウザは2026年3月にグローバル公開テストを開始し、AIネイティブブラウザとしてmacOSとWindowsで無料提供。内蔵のインテリジェントエージェントモードにより、データ連携、フォーム自動入力、詳細調査などの機能を備え、AI時代のウェブ閲覧体験を再定義します。....
サムスンはGalaxy S26シリーズを発表し、AIスマートフォンのコンセプトを強調しています。10以上のAI機能アップグレードが導入されています。その中でも「Now Nudge」機能は、ユーザーが入力する際に自動で操作の提案を行い、利便性を向上させます。
イスラエルのセキュリティ企業LayerXは、Claude Desktop Extensionsに深刻な脆弱性を発見しました。攻撃者はGoogleカレンダーの招待を利用し、「ゼロクリック」によるリモートコード実行ができ、CVSSスコアは10/10です。脆弱性の原因は、Claudeが外部コンテナ入力を自動処理することにあり、悪意のある命令がスケジュール処理によって引き起こされる可能性があります。
事前入力テキスト付きのWhatsAppリンクを無料で生成、URLエンコードを自動処理
AutoFormはAIデータ入力エージェントであり、混乱したPDF、エクセルシート、ウェブサイトなどをすぐにクリーンで構造化されたデータに変換します。これにより、ダウンロードしたり、対話したり、任意のフォームの自動入力に使用できます。
アドビストックへの画像アップロードプロセスを簡略化するChrome拡張機能。
AIで様々なフォームを自動入力し、時間を節約し、効率を向上させます。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Xai
$1.4
$3.5
2k
Openai
$7.7
$30.8
200
Anthropic
$105
$525
$17.5
$0.7
$2.8
Alibaba
$15.8
$12.7
64
-
Bytedance
$10.5
256
$0.8
$8
Tencent
$1
$4
32
Baidu
$8.75
$70
400
$0.35
$1.95
16
Tacoin
これはTacoinがNVIDIA GR00Tモデルをベースに、LIBERO libero longベンチマークテストで微調整したロボット操作モデルです。このモデルはデュアルRGBストリームと8自由度の状態入力を採用し、16ステップの関節空間動作を予測でき、長期的な視野のロボット操作タスクに特化しています。
nvidia
Cosmos-Predict2.5はNVIDIAが開発した、物理AI向けに設計された高性能の事前学習済み世界基礎モデルセットです。拡散モデル技術に基づいており、テキスト、画像、またはビデオの入力に基づいて、物理的な知覚を持つ高品質の画像とビデオを生成することができ、自動運転やロボットなどのアプリケーションに世界シミュレーション能力を提供します。
unsloth
Cosmos-Reason1はNVIDIAが開発した物理人工知能モデルで、物理常識を理解する能力を備え、長鎖思考推論により具身決定を生成できます。このモデルはマルチモーダル入力(テキスト + ビデオ/画像)をサポートし、出力はテキストで、ロボットや自動運転などの物理AI分野に適しています。
jetuned
このモデルは要約生成モデルで、入力テキストの簡潔な要約を自動生成できます。
ianpan
このモデルは手部X線画像を自動的にトリミングし、骨年齢モデルの画像入力を標準化します。
premanthcharan
視覚トランスフォーマー(ViT)と自然言語処理を組み合わせた画像キャプション生成モデルで、入力画像に対して自然言語の説明を自動生成可能
ai4bharat
IndicConformerはマラーティー語向けの混合CTC-RNNTアーキテクチャ自動音声認識モデルで、16KHzモノラル音声入力をサポートします
NiCEtmtm
入力テキストからキー情報を自動抽出し簡潔な要約を生成する専門モデル
Ateeqq
T5-Baseベースのタイトル生成ツールで、キーワード入力により魅力的なコンテンツタイトルを自動生成
DAMO-NLP-SG
VideoLLaMA 2はマルチモーダル大規模言語モデルで、動画理解と音声処理に特化しており、動画や画像入力を処理し自然言語応答を生成できます。
KBlueLeaf
DanTagGenは4億パラメータのLLaMAアーキテクチャを基に最初から訓練されたタグ生成モデルで、アートの記述に関連するタグを生成するために特別に設計されています。このモデルはDanbooruデータセットで訓練され、入力されたアーティスト、キャラクター、著作権などの情報に基づいて適切なタグを自動生成することができます。
s3nh
TinyLLama-1.1B-MoEは、エキスパート混合アーキテクチャに基づく軽量級の言語モデルで、複数のTinyLlama関連モデルを融合して作成されました。このモデルは、異なるシナリオのテキスト生成タスクに対して最適化されており、入力プロンプトのタイプに応じて最適なエキスパートモデルを自動的に選択して処理します。
chiakya
これはAutoTrainプラットフォームでトレーニングされた要約生成モデルで、入力テキストから自動的に要約を生成できます。
alibaba-pai
オープンソースの自動プロンプト生成モデルで、極簡な説明を入力すると、言語モデルで最適化された専門的なプロンプトが得られ、高品質な画像を簡単に生成できます。
imvladikon
これはヘブライ語のテキスト要約モデルで、入力されたヘブライ語テキストを自動的に簡潔な要約に変換できます。
自動プロンプト最適化モデルで、簡単な説明を入力するだけでプロ級のプロンプトを生成し、高品質な画像生成に使用できます。
microsoft
Promptistは強化学習ベースの自動プロンプト最適化ツールで、Stable Diffusion向けに設計されており、ユーザー入力をモデルが好むプロンプトに変換します。
Jacobsith
これはAutoTrainで訓練されたテキスト要約モデルで、入力テキストの要約を自動生成できます。
jonatasgrosman
facebook/wav2vec2-large-robustモデルをファインチューニングしたスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力をサポートします。
microsoft/wavlm-largeをベースに微調整されたスウェーデン語自動音声認識モデルで、16kHzサンプリングレートの音声入力に適しています。
Playwright MCPはPlaywrightに基づくブラウザ自動化サーバーで、構造化データを通じてLLMとウェブページのインタラクションを実現し、ピクセル入力を必要としません。
オープンソースのショートビデオ自動生成ツールで、テキスト読み上げ、自動字幕、背景ビデオ、音楽を統合し、簡単なテキスト入力から専門的なショートビデオを作成します。
MaaFrameworkに基づくMCPサーバーで、AIアシスタントにAndroidデバイスとWindowsデスクトップの自動化機能を提供し、OCR認識、クリック、スライド、テキスト入力などの操作をサポートし、操作プロセスを再利用可能なPipelineに変換できます。
Selenium WebDriverに基づくMCPサーバーで、AIエージェントがMCPプロトコルを通じてブラウザセッションを制御し、ナビゲーション、要素検索、フォーム入力などのWebページ自動操作を実現できます。
LinkedInデータ収集MCPサーバーは、手動でアカウントとパスワードを入力して認証し、Seleniumブラウザ自動化技術を使用して、勤務歴、学歴、スキル、連絡先などのLinkedInプロフィールの完全な情報を取得します。
Playwright MCPは、Playwrightに基づくブラウザ自動化サービスで、ピクセル入力ではなく構造化されたアクセシビリティスナップショットを通じて、LLMにウェブページのインタラクション機能を提供します。ヘッドレス/ヘッドフルモード、タブ管理、ナビゲーション操作などの様々な機能をサポートし、ウェブページのナビゲーション、データ抽出、自動化テストなどのシナリオに適しています。
MCPプロトコルに基づくブラウザ自動化サービスで、ウェブナビゲーション、スクリーンショット、要素インタラクション、フォーム入力、データ抽出などの機能を提供します。
自動化されたブログ公開サービスで、ユーザーが特定のコマンドを入力すると、Obsidian内のMarkdown記事を自動的にブログディレクトリにコピーし、画像リンクを処理し、GitHubに同期します。
Steel MCPサーバーは、Model Context Protocolに基づくサーバーで、PuppeteerツールとSteelブラウザを統合することで、ClaudeなどのLLMモデルがウェブページのナビゲーション、クリック、入力などの自動化操作を実行できるようにします。ローカルとクラウドの2つの実行モードをサポートし、ウェブページのインタラクションとスクリーンショット機能を提供します。
Smithery MCPサーバーを一括インストールするためのbashスクリプトツールで、完全なコマンド入力と簡略化されたパッケージ名入力の2つのバージョンをサポートし、複数のクライアント間で自動的にインストールを同期できます。
Playwrightに基づくMCPサーバーで、ウェブ自動化操作ツールとノート保存システムを提供し、URLナビゲーション、スクリーンショットの撮影、クリック、フォームの入力などのブラウザ操作機能をサポートしています。
このプロジェクトはPlaywright - MCPを通じて、クラウドベースのサーバーレスPlaywrightブラウザサービスを提供し、Playwrightのアクセシビリティツリーを利用してピクセル入力ではなく、高速で軽量なウェブ自動化操作を実現します。構造化データのインタラクションをサポートし、ウェブナビゲーション、フォーム入力、データ抽出、自動化テストなどのシーンに適しています。
Android Puppeteerは、MCPプロトコルに基づくAndroidデバイスの自動化サーバーで、視覚要素の検出と注釈付けにより、AIエージェントがAndroidデバイスと対話できるようにし、クリック、入力、スライド、録画などのさまざまな自動化操作をサポートします。
PuppeteerをベースにしたMCPサーバーで、ブラウザ自動化機能を提供します。新しいブラウザインスタンスまたは既存のChromeウィンドウに接続でき、ナビゲーション、スクリーンショット、フォーム入力などの一般的な機能が含まれています。
IODアプリは、ClaudeデスクトップアプリでMCPサーバーをワンクリックでインストールできるデスクトップアプリケーションです。ユーザーはIODウェブサイトで必要なMCPサーバーを検索して選択し、必要な設定を入力すると自動的にインストールが完了します。
Playwrightに基づくブラウザ自動化MCPサービスで、ウェブページのナビゲーション、コンテンツの抽出、フォームの入力、スクリーンショットなどの標準化されたツールを提供し、複数のブラウザと、リクエストのインターセプトやレスポンシブテストなどの高度な機能をサポートします。
Screenpipeによって開発されたComputer Use AI SDKは、オープンソースプロジェクトで、MCPサーバーとクライアントを提供し、AIによるコンピューター操作の制御を可能にします。macOSネイティブ環境をサポートし、仮想マシンを必要とせず、任意のアプリケーションやウェブサイトと直接やり取りできます。アプリケーションの起動、内容の読み取り、クリック、テキストの入力などの基本機能を提供し、自動化ワークフローやインテリジェントエージェントの構築を目的としています。
nut.jsを使ってコンピュータの画面、マウス、キーボードをプログラムで制御するMCPサービスで、スクリーンショット、入力シミュレーション、ウィンドウ管理などの自動化操作機能を提供します。
Shorts Video Makerは、ショートビデオを自動生成するオープンソースツールです。テキストから音声への変換、自動字幕、背景ビデオ、音楽技術を組み合わせ、シンプルなテキスト入力で魅力的なショートビデオコンテンツを作成します。REST APIとMCPプロトコルをサポートし、コンテンツクリエイターと開発者に適しています。