首页
信息

数据集合

提供用于训练、评估和测试模型的数据集

工具

智能文档识别解析

提供各类文档文字提取,支持自定义场景

AI应用指南

value-rnn-td

Public

使用时序差分学习 (TD learning) 训练一个循环神经网络 (RNN) 来估计部分可观测马尔可夫决策过程 (POMDP) 中的状态价值。

创建时间2022-02-26T23:05:43
更新时间2025-07-27T13:31:35
6
Stars
0
Stars Increase