宇樹科技が人型ロボットの運動制御アーキテクチャ「OmniXtreme」をオープンソース化し、技術論文を発表。高動的環境での動作精度低下と物理実装の課題解決を目指し、二段階訓練フレームワークを採用。第一段階では流動マッチング事前訓練により高動的スキルを統合し、ロボットの極限動作性能を向上。....
小米が47億パラメータのロボットモデルXiaomi-Robotics-0をオープンソース化し、MoTミックスアーキテクチャを採用。脳と小脳が協力して働き、モバイル向けGPUでリアルタイム推論を実現し、現在のVLAモデルが推論遅延によって動作が鈍くなる問題を解決し、ロボットの制御効率と汎化能力を向上させました。
可灵AI 3.0をリリースし、動画・画像生成機能を強化。ナレーション、画面制御、マルチモーダル連携に焦点。新機能「スマートストーリーボード」で創作体験を向上。....
グーグルCEOはAIシステムの動作メカニズムについて完全に制御していないことを認めた。これによりAIブラックボックスの謎が明らかにされた。大規模言語モデルは膨大なデータで訓練され、出現的な行動を示すことがあり、例えばグーグルのPaLMモデルは少量のデータでバングラデシュ語の翻訳が可能であり、AIが訓練から自己学習への飛躍を示している。
AI技術を活用し、簡単に制御可能な動画を作成できます。
テキストによる感情と動作の制御で、生き生きとした2Dアバターを生成します。
Openai
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Anthropic
$105
$525
200
$21
Alibaba
$3.9
$15.2
64
$15.8
$12.7
Bytedance
$0.8
$2
128
Xai
$1.4
$10.5
256
32
Baidu
Tencent
$0.75
$0.35
$2.8
400
$15
1k
Huawei
Chatglm
nbirukov
拡散戦略に基づく視覚運動制御モデルで、ロボット制御を生成拡散プロセスと見なし、滑らかな多段階動作軌跡を生成でき、富接触操作タスクで優れた性能を発揮します。
IPEC-COMMUNITY
SpatialVLAは視覚-言語-動作モデルで、fractalデータセットでファインチューニングされ、主にロボット制御タスクに使用されます。
lerobot
Pi0は汎用ロボット制御のための視覚-言語-動作フローモデルで、ロボット制御タスクをサポートします。
SpatialVLAは視覚-言語-動作モデルで、基礎モデルをフラクタルとブリッジデータセットでファインチューニングしており、ロボット制御タスク専用に設計されています。
SpatialVLAは110万の実ロボット操作シーンで訓練された空間拡張視覚言語動作モデルで、ロボット制御タスクに特化しています
ConnorJiang
PyTorchベースの動作制御モデルで、ロボット技術分野に適用可能
TrossenRoboticsCommunity
PyTorchベースの動作制御モデルで、ロボット技術分野の動作制御タスクに特化しています。
openvla
OpenVLA v0.1 7Bはオープンソースの視覚-言語-動作モデルで、Open X-Embodimentデータセットでトレーニングされ、さまざまなロボット制御をサポートします。
rail-berkeley
Octo小型版はロボット制御のための拡散戦略モデルで、Transformerアーキテクチャを採用し、視覚入力と言語命令に基づいてロボットの動作を予測できます。
Octo小型版は拡散戦略で訓練されたロボット制御モデルで、将来4ステップの7次元動作を予測可能。多様なロボットデータセットに適用可能。
Octoは拡散戦略に基づいて訓練されたロボット制御のベースモデルで、将来の動作を予測しマルチモーダル入力を処理できます。
sb3
これはSACアルゴリズムに基づく強化学習モデルで、Hopper-v3環境でロボットのジャンプ動作を制御するために使用されます。
adb - mcpは、MCPプロトコルを通じてLLMにインターフェースを提供し、Adobeツール(PhotoshopやPremiereなど)を制御するAIエージェントを作成する概念実証プロジェクトです。このプロジェクトには、MCPサーバー、Nodeコマンドプロキシサーバー、およびAdobeアプリケーションプラグインが含まれており、自然言語の命令でAdobeソフトウェアを操作でき、画像およびビデオ編集の自動化に適しています。
HWP - MCPは、AIモデルがHWP文書を制御するためのプロトコルサービスで、文書の作成、編集および自動化処理をサポートします。
MCPプロトコルに基づくGNS3ネットワークシミュレータのAI制御サーバで、自然言語指令によるネットワークトポロジーとシミュレーションの作成、管理、制御をサポートし、完全なネットワークエンジニアリング自動化ソリューションを提供します。
ros2-mcp-serverはPythonベースのサーバーで、Model Context Protocol (MCP)を通じてROS 2と統合され、AIアシスタントがROS 2トピックを通じてロボットの動きを制御できるようにします。時間制御の移動コマンドをサポートし、ROS 2ノードとして動作し、geometry_msgs/Twistメッセージを/cmd_velトピックに発行します。
VRChat MCP OSCは、OSCプロトコルを通じてAIアシスタントとVRChatを接続するブリッジで、AIによる仮想キャラクターの動作、表情、インタラクションの制御をサポートします。
Isaac Sim MCP拡張機能は、自然言語でNVIDIA Isaac Simを制御し、ロボットシミュレーション、シーン作成、動的なインタラクションを実現し、MCPエコシステムと具現化されたインテリジェントアプリケーションを接続します。
このプロジェクトは、Model Context Protocolを通じてClaude AIとPure Dataを統合し、自然言語でPure Dataのオーディオ処理モジュールを動的に作成、修正、制御することをサポートします。
これはClaude DesktopにPowerPoint自動化機能を提供するMCPサーバープロジェクトで、プロトコルを通じてMicrosoft PowerPointを制御し、プレゼンテーションの作成、編集、保存などの操作をサポートします。
これはCloudflare Workers上で動作する軽量なモデル制御プロトコル(MCP)サーバーで、エージェント(Cursorエージェントなど)がWorkOS APIとやり取りできるようにします。このプロジェクトは自動化されたデプロイとツールの拡張機能を提供します。
コンピュータ制御機能を提供するMCPサーバーで、マウス・キーボード制御、スクリーンショット、OCR文字認識などが含まれ、クロスプラットフォームで動作し、外部依存が不要です。
CAD - MCPは自然言語指令でCADソフトを制御して図面作成操作を行うサービスプロジェクトで、複数の主流のCADソフトをサポートし、自動化された図面作成と修正機能を実現します。
FastMCPに基づくロボット制御サーバープロジェクトで、移動動作制御をサポートし、将来的にナビゲーション機能を拡張する予定です。
Migadu MCPサーバーは、AIアシスタントを介してMigaduのメールホスティングサービスを制御するツールで、メールボックスの作成、エイリアスの設定、自動返信などの機能をサポートしています。
GDAI MCP Godotプラグインは、AIがMCPプロトコルを通じてGodotエンジンエディタをリモートで制御できるツールで、シーン、ノード、スクリプトの自動作成やデバッグなどの機能をサポートしています。
Migadu MCPサーバーは、AIアシスタントを通じてMigaduメールホスティングサービスを制御するツールで、メールボックスの作成、エイリアスの設定、自動返信などの機能をサポートしています。
Gemini MCP Serverは、Go言語で開発された単一の実行可能ファイルで、Google Gemini APIのモデル制御プロトコルサーバーを統合しています。動的なモデルアクセス、高度なコンテキストキャッシュ、スマートなファイル処理、強化された検索機能を提供し、コード分析、創作的なライティング、事実調査などの様々なアプリケーションシナリオをサポートします。
GoLogin MCPサーバーは、AI対話を通じてブラウザ構成と自動化を管理するツールで、ブラウザプロファイルの作成、構成、制御(プロキシ設定、指紋管理など)をサポートします。
MCPブラウザ自動化サーバーは、REST APIをベースにしたブラウザ制御ツールで、セッションの作成、ページのナビゲーション、スクリーンショットの取得、要素の操作、リアルタイムのコンソールログ監視などの機能をサポートしています。