北京智源人工智能研究院發佈新一代多模態大模型Emu3.5,實現“世界級統一建模”,突破傳統AI在物理理解和因果推理上的短板,讓AI從單純生成圖像、文本進化到真正理解物理世界。
智源研究院發佈Emu3.5多模態世界模型,首次引入自迴歸式“下一狀態預測”技術,推動AI從感知理解邁向智能操作。該模型能在複雜環境中規劃執行跨模態任務,實現多模態AI質的飛躍。
8月26日首屆“AI國際人才峯會”上,PPIO聯合創始人姚欣分享AI時代創業者必備特質。峯會由香港投資管理公司與北京智源人工智能研究院主辦,匯聚全球AI專家與青年學者,探討AI前沿發展與產業實踐。姚欣提出創業者需具備“PDA”思維:Problem-Native(問題原生)、Data-Driven(數據驅動)、AI-Augmented(AI增強)。
智源研究院發佈具身智能系統RoboBrain2.032B版本及RoboOS2.0框架。RoboBrain2.0作爲通用具身大腦,在權威測試中表現突出,具備強大的時空認知和複雜任務執行能力。RoboOS2.0是全球首個具身智能SaaS開源框架,支持輕量化部署和多機器人協作。新技術通過模塊化設計和多模態訓練顯著提升機器人理解決策能力,已全面開源。
Openai
$2.8
輸入tokens/百萬
$11.2
輸出tokens/百萬
1k
上下文長度
Anthropic
$7
$35
200
Xai
$1.4
$10.5
256
$1.75
$14
400
Chatglm
-
128
Tencent
$0.5
$2
224
Huawei
32
Google
$0.35
$0.7
131
$3.5
16
$8.75
$0.49
$2.1
8
$100
BAAI
Emu3.5是北京智源人工智能研究院開發的原生多模態模型,能夠跨視覺和語言聯合預測下一狀態,實現連貫的世界建模和生成。通過端到端預訓練和大規模強化學習後訓練,在多模態任務中展現出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)開發的原生多模態模型,能夠跨視覺和語言聯合預測下一狀態,實現連貫的世界建模與生成,在多模態任務中表現卓越。
mlx-community
GLM-4.5-Air-mxfp4 是智源研究院 GLM-4.5-Air 模型的 MLX 格式轉換版本,專門為 Apple Silicon 設備優化,支持高效的本地推理。
HyperBlaze
BGE-M3是由北京智源人工智能研究院開發的多語言文本嵌入模型,支持100多種語言的密集檢索、多向量檢索和稀疏檢索三種檢索方式。該模型在MTEB基準測試中表現出色,能夠有效處理多語言文本相似性計算和檢索任務。
北京智源研究院開發的非量化自迴歸文本生成視頻模型,能夠根據文本提示生成和編輯視頻
Emu3是由北京智源研究院開發的多模態模型,僅通過預測下一個標記訓練而成,支持圖像、文本和視頻處理。