探索AI前沿,掌握行业发展趋势
每日精选AI热点,追踪最新行业动态
精准筛选产品,多维度产品调研
热门AI产品实力、热度、年/月/日排行
提交AI产品信息,助力产品推广和用户转化
一站式AI工具指南,快速找到你需要的工具
涵盖各类AI模型,满足你的开发与研究需求
热门AI大模型性能、热度、年/月/日排行
寻找优质模型提供商,获取可靠模型支持
提交模型信息和服务,精准推广和触达用户
多维度对比大模型,找到最适合你的模型
精准计算大模型使用成本,合理规划预算
多模型实时评测,模型输出结果快速比对
聚集热门MCP服务,快速找到适合你的服务
轻松接入MCP客户端,调用强大的AI能力
学习MCP使用技巧,从入门到精通
热门MCP服务性能排行,帮你找到最佳选择
发布你的MCP服务,推广你的MCP服务
自由测试MCP服务,线上快速体验
快速测试MCP服务,快速上线
分析并追踪人工智能模型如何引用您的品牌
通过AI搜索优化服务,让品牌在AI中实现霸屏
检测品牌在AI平台中的可见度
一键检测电脑配置,研判运行模型的兼容性
根据算力需求,推荐匹配的服务器配置
提供用于训练、评估和测试模型的数据集
提供各类文档文字提取,支持自定义场景
发现与 Delayed Rewards 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
持续更新的优秀探索强化学习资源精选列表
Professional VPN node automation for Depined Network - the decentralized privacy platform that rewards users for sharing bandwidth as secure exit nodes. Earn crypto while enhancing global internet privacy.
Repo of paper "Free Process Rewards without Process Labels"
一个开源的、基于图的Python代码生成和分析工具箱,用于动态系统(预实现和自定义模型)。大多数预实现模型属于神经群体模型家族。
A comrephensive collection of learning from rewards in the post-training and test-time scaling of LLMs, with a focus on both reward models and learning strategies across training, inference, and post-inference stages.
A curated list of awesome resources about reward construction for AI agents. This repository covers cutting-edge research, and practical guides on defining and collecting rewards to build more intelligent and aligned AI agents.
这个项目实现了基于强化学习技术的自动驾驶导航,重点使用深度Q网络(DQN)和双延迟深度确定性策略梯度(TD3)算法。我们专注于训练TurtleBot3机器人,使其能够在环境中自主导航并智能地避开移动障碍物。
[Official] Nabla-R2D3: Effective and Efficient 3D Diffusion Alignment with 2D Rewards
?enhanced GRPO with more verifiable rewards and real-time evaluators
在Unity ML的Pyramid环境中,使用带有内在好奇心模块(ICM)的近端策略优化(PPO)算法
本项目的目标是构建一种基于强化学习的算法,帮助出租车司机优化其决策过程,从而最大化收益。以长期利润最大化为目标,我们提出了一种基于强化学习的方法来优化出租车驾驶策略。此优化问题被表述为马尔可夫决策过程 (MDP)。
爱丁堡大学信息学硕士论文项目:多智能体强化学习中的好奇心
Our MAGNUM OPUS Delayed For Funding : Epiphany CLI emerges with purpose-built to overcome the fundamental limitations of stochastic language models, specifically their non-deterministic outputs, inadequate context management, and fragile error handling
Implementation of Group Relative Policy Optimization (GRPO) and Evolutionary Strategy (ES) to fine-tune Open Language Models (like LlaMa-3.2, Qwen2.5) for Tasks with verifiable rewards.
(NeurIPS 2023) Source-code of the paper: Belief Projection-Based Reinforcement Learning for Environments with Delayed Feedback
INQUIRE:面向用户的交互式信息推理查询
Context & Guide For Reinforcement Learning with Verifiable Rewards with Large Language Models
A repo for Implemented online preference-based reward learning under human irrationality & delayed feedback
使用强化学习进行集群管理