阿里通义实验室推出FIPO算法,突破传统强化学习在复杂逻辑推理中的瓶颈。该算法通过Future-KL机制,精准识别关键推理步骤,有效解决模型在数学等复杂问题中推理长度停滞的问题,显著提升推理准确率和效率。
阿里通义实验室发布新型算法FIPO,通过引入“Future-KL”机制,有效解决纯强化学习在长文本推理中的“推理长度停滞”问题,提升复杂逻辑对齐训练效果。
西湖机器人公司发布人形机器人泰坦o1,内置全球首个动作泛化大模型“GAE身外化身系统”。该机器人具备毫秒级模仿能力,可实时复刻人类动作,实现一人操控多台“赛博分身”,展示了机器人领域的新突破。
快手旗下可灵AI在2026年初实现爆发式增长,月活跃用户突破1200万,App付费用户环比激增350%。增长主要得益于产品快速迭代,包括2025年底发布的多模态视频模型O1和“音画同出”功能,以及2026年1月推出的“动作控制”新功能,用户可通过图片和动作参考生成视频。
专业AI视频生成平台,从文字和图片创建视频,可对输入视频广泛编辑。
AI 音乐生成器,将歌词和提示转换为完全制作的歌曲,且无限制和免版税!
o1-pro 模型通过强化学习提升复杂推理能力,提供更优答案。
网易有道开发的轻量级推理模型,可在单个GPU上部署,具备类似o1的推理能力。
Openai
$14
输入tokens/百万
$56
输出tokens/百万
200
上下文长度
-
$105
$420
$21
$84
128
XiaomiMiMo
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上表现出色,性能媲美OpenAI o1-mini。
MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型,在数学与代码推理任务上达到与OpenAI o1-mini比肩的性能。
evilfreelancer
基于GigaChat-20B-A3B模型训练的LoRA适配器,专门用于俄语逻辑思考过程模拟
Skywork
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基于Qwen2.5-Math-1.5B-Instruct训练的增量过程奖励模型,专为增强小规模复杂问题求解能力而设计。
Skywork o1 Open-Llama-3.1-8B是基于Llama-3.1-8B训练的强力对话模型,通过'慢思考'推理风格数据显著增强推理能力。
Skywork o1开放模型系列中的7B参数规模模型,基于Qwen2.5-Math-7B-Instruct训练,具备渐进式过程奖励增强的推理能力
HKAIR-Lab
HK-O1aw 是一款具备O1风格复杂推理能力的法律助手,基于LLaMA-3.1-8B,专为香港地区法律领域设计。
该项目提供MCP服务器,用于集成OpenAI的o1模型和Flux能力,支持模型交互和图像处理功能。