Search-R1
一个高效的强化学习框架,用于训练推理和搜索引擎调用的语言模型。
普通产品生产力强化学习自然语言处理
Search-R1 是一个强化学习框架,旨在训练能够进行推理和调用搜索引擎的语言模型(LLMs)。它基于 veRL 构建,支持多种强化学习方法和不同的 LLM 架构,使得在工具增强的推理研究和开发中具备高效性和可扩展性。
Search-R1 最新流量情况
月总访问量
492133528
跳出率
36.20%
平均页面访问数
6.1
平均访问时长
00:06:33
一个高效的强化学习框架,用于训练推理和搜索引擎调用的语言模型。
月总访问量
492133528
跳出率
36.20%
平均页面访问数
6.1
平均访问时长
00:06:33