北京智源人工智能研究院发布新一代多模态大模型Emu3.5,实现“世界级统一建模”,突破传统AI在物理理解和因果推理上的短板,让AI从单纯生成图像、文本进化到真正理解物理世界。
智源研究院发布Emu3.5多模态世界模型,首次引入自回归式“下一状态预测”技术,推动AI从感知理解迈向智能操作。该模型能在复杂环境中规划执行跨模态任务,实现多模态AI质的飞跃。
8月26日首届“AI国际人才峰会”上,PPIO联合创始人姚欣分享AI时代创业者必备特质。峰会由香港投资管理公司与北京智源人工智能研究院主办,汇聚全球AI专家与青年学者,探讨AI前沿发展与产业实践。姚欣提出创业者需具备“PDA”思维:Problem-Native(问题原生)、Data-Driven(数据驱动)、AI-Augmented(AI增强)。
智源研究院发布具身智能系统RoboBrain2.032B版本及RoboOS2.0框架。RoboBrain2.0作为通用具身大脑,在权威测试中表现突出,具备强大的时空认知和复杂任务执行能力。RoboOS2.0是全球首个具身智能SaaS开源框架,支持轻量化部署和多机器人协作。新技术通过模块化设计和多模态训练显著提升机器人理解决策能力,已全面开源。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Anthropic
$7
$35
200
Xai
$1.4
$10.5
256
$1.75
$14
400
Huawei
-
32
Google
$0.35
$0.7
131
$3.5
16
$8.75
$0.49
$2.1
$210
$420
BAAI
Emu3.5是北京智源人工智能研究院开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模和生成。通过端到端预训练和大规模强化学习后训练,在多模态任务中展现出卓越性能。
Emu3.5是由北京智源人工智能研究院(BAAI)开发的原生多模态模型,能够跨视觉和语言联合预测下一状态,实现连贯的世界建模与生成,在多模态任务中表现卓越。
mlx-community
GLM-4.5-Air-mxfp4 是智源研究院 GLM-4.5-Air 模型的 MLX 格式转换版本,专门为 Apple Silicon 设备优化,支持高效的本地推理。
HyperBlaze
BGE-M3是由北京智源人工智能研究院开发的多语言文本嵌入模型,支持100多种语言的密集检索、多向量检索和稀疏检索三种检索方式。该模型在MTEB基准测试中表现出色,能够有效处理多语言文本相似性计算和检索任务。
北京智源研究院开发的非量化自回归文本生成视频模型,能够根据文本提示生成和编辑视频
Emu3是由北京智源研究院开发的多模态模型,仅通过预测下一个标记训练而成,支持图像、文本和视频处理。