阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。
阿里通义实验室发布新型算法FIPO,通过引入“Future-KL”机制,有效解决纯强化学习在长文本推理中的“推理长度停滞”问题,提升复杂逻辑对齐训练效果。
西湖机器人公司发布人形机器人泰坦o1,内置全球首个动作泛化大模型“GAE身外化身系统”。该机器人具备毫秒级模仿能力,可实时复刻人类动作,实现一人操控多台“赛博分身”,展示了机器人领域的新突破。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
o1-pro 模型通过强化学习提升复杂推理能力,提供更优答案。
网易有道开发的轻量级推理模型,可在单个GPU上部署,具备类似o1的推理能力。
一款在推理和编程基准测试中表现与o1-preview相当的推理模型。
OpenAI o1 是一款先进的AI模型,专为复杂任务设计。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
XiaomiMiMo
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上表现出色,性能媲美OpenAI o1-mini。
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上达到与OpenAI o1-mini比肩的性能。
Skywork
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基于Qwen2.5-Math-1.5B-Instruct训练的增量过程奖励模型,专为增强小规模复杂问题求解能力而设计。
Skywork o1 Open-Llama-3.1-8B是基于Llama-3.1-8B训练的强力对话模型,通过'慢思考'推理风格数据显著增强推理能力。
Skywork o1开放模型系列中的7B参数规模模型,基于Qwen2.5-Math-7B-Instruct训练,具备渐进式过程奖励增强的推理能力
该项目提供MCP服务器,用于集成OpenAI的o1模型和Flux能力,支持模型交互和图像处理功能。