阿里通義實驗室推出FIPO算法,突破傳統強化學習在複雜邏輯推理中的瓶頸。該算法通過Future-KL機制,精準識別關鍵推理步驟,有效解決模型在數學等複雜問題中推理長度停滯的問題,顯著提升推理準確率和效率。
阿里通義實驗室發佈新型算法FIPO,通過引入“Future-KL”機制,有效解決純強化學習在長文本推理中的“推理長度停滯”問題,提升複雜邏輯對齊訓練效果。
西湖機器人公司發佈人形機器人泰坦o1,內置全球首個動作泛化大模型“GAE身外化身系統”。該機器人具備毫秒級模仿能力,可實時復刻人類動作,實現一人操控多臺“賽博分身”,展示了機器人領域的新突破。
快手旗下可靈AI在2026年初實現爆發式增長,月活躍用戶突破1200萬,App付費用戶環比激增350%。增長主要得益於產品快速迭代,包括2025年底發佈的多模態視頻模型O1和“音畫同出”功能,以及2026年1月推出的“動作控制”新功能,用戶可通過圖片和動作參考生成視頻。
專業AI視頻生成平臺,從文字和圖片創建視頻,可對輸入視頻廣泛編輯。
AI 音樂生成器,將歌詞和提示轉換為完全製作的歌曲,且無限制和免版稅!
o1-pro 模型通過強化學習提升複雜推理能力,提供更優答案。
網易有道開發的輕量級推理模型,可在單個GPU上部署,具備類似o1的推理能力。
Openai
$14
輸入tokens/百萬
$56
輸出tokens/百萬
200
上下文長度
-
$105
$420
$21
$84
128
XiaomiMiMo
MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型,在數學與代碼推理任務上表現出色,性能媲美OpenAI o1-mini。
MiMo-7B-RL是基於MiMo-7B-SFT模型訓練的強化學習模型,在數學與代碼推理任務上達到與OpenAI o1-mini比肩的性能。
evilfreelancer
基於GigaChat-20B-A3B模型訓練的LoRA適配器,專門用於俄語邏輯思考過程模擬
Skywork
Skywork o1 Open-PRM-Qwen-2.5-1.5B是基於Qwen2.5-Math-1.5B-Instruct訓練的增量過程獎勵模型,專為增強小規模複雜問題求解能力而設計。
Skywork o1 Open-Llama-3.1-8B是基於Llama-3.1-8B訓練的強力對話模型,通過'慢思考'推理風格數據顯著增強推理能力。
Skywork o1開放模型系列中的7B參數規模模型,基於Qwen2.5-Math-7B-Instruct訓練,具備漸進式過程獎勵增強的推理能力
HKAIR-Lab
HK-O1aw 是一款具備O1風格複雜推理能力的法律助手,基於LLaMA-3.1-8B,專為香港地區法律領域設計。
該項目提供MCP服務器,用於集成OpenAI的o1模型和Flux能力,支持模型交互和圖像處理功能。