物理AI正成爲科技巨頭新戰場。OpenAI、英偉達與特斯拉近期在具身智能領域推出重大舉措,表明機器人產業競爭從硬件製造升級爲底層基礎設施與行業標準制定。OpenAI新成立“OpenAI Robotics”團隊,標誌着科技巨頭深度下場,打破初創和傳統企業主導格局。
OpenAI宣佈成立Robotics事業部,將AI從軟件拓展至具身智能領域,旨在通過大模型連接物理世界。CEO山姆·奧特曼公開招募全棧硬件、運營、系統及機器學習工程師,強調AI應切實幫助人類生活。團隊計劃分階段推進,短期內專注研發,以逐步實現現實世界應用。
螞蟻靈波科技與香港科技大學等高校合作的研究論文《Causal World Modeling for Robot Control》被國際機器人頂級會議RSS 2026接收。該會議是機器人領域公認的頂級學術會議,關注學習、控制、感知等前沿方向,錄用標準嚴格。論文被接收標誌着研究兼具學術創新性與國際認可。
具身智能領域的神祕模型MotuBrain身份揭曉,該模型由視頻大模型Vidu開發商生數科技推出,是其最新商業化成果。MotuBrain在物理世界理解基準WorldArena和動作執行基準RoboTwin2.0中均登頂,刷新了紀錄,展示了生數科技在具身智能領域的跨界實力。
用AI秒速創建個性化聖誕賀卡,首張免費,可印刷配送或發電子卡。
基於Gemini 2.0的機器人模型,將AI帶入物理世界,具備視覺、語言和動作能力。
用於雙手操作的擴散基礎模型
特斯拉自動駕駛技術與機器人的未來願景
Remade-AI
基於Wan2.1 14B I2V 480p模型訓練的LoRA,可將任何圖像主體轉化為展現機器人面部的視頻效果
RobotsMali
這是一個基於NVIDIA NeMo框架微調的班巴拉語自動語音識別模型,適用於處理班巴拉語語音轉文本任務。
robotics-diffusion-transformer
RDT-170M是一個擁有1.7億參數的模仿學習擴散Transformer模型,用於機器人視覺-語言-動作任務。
robotjagaek
一個基於PyTorch和HuggingPics構建的圖像分類模型,專門用於識別不同種類的鞋子。
Ethan-pooh
基於robotics-diffusion-transformer/rdt-1b衍生的RDT模型,專注於機器人技術領域。
基於100萬+多機器人操作數據預訓練的10億參數模仿學習擴散Transformer模型,支持多視角視覺語言動作預測
robotjung
專為生成半寫實風格人物圖像而打造的模型,經過多次模型融合優化。
ros2-mcp-server是一個基於Python的服務器,通過Model Context Protocol (MCP)與ROS 2集成,使AI助手能夠通過ROS 2話題控制機器人運動。它支持時間控制的移動命令,並作為ROS 2節點運行,發佈geometry_msgs/Twist消息到/cmd_vel話題。
這是一個Airbnb房源搜索和詳情查詢的MCP服務,提供結構化數據和直接鏈接,無需API密鑰,遵守robots.txt規則。
將Robot Framework庫轉換為MCP服務器的指南,通過添加特定函數和配置,使庫能夠作為MCP服務運行,便於客戶端調用。
Airbnb搜索與房源信息桌面擴展,提供高級搜索過濾功能和詳細房源信息獲取,支持位置搜索、日期篩選、價格區間等多種查詢條件,並遵守robots.txt協議確保合規使用。
一個基於FastMCP的機器人控制服務器項目,支持移動動作控制,未來將擴展導航功能。