机器之心报道
论文地址:https://openreview.net/pdf?id=yqQJGTDGXN 项目地址:https://github.com/mohmdelsayed/streaming-drl 论文标题:Deep Reinforcement Learning Without Experience Replay, Target Networks, or Batch Updates
划重点
01阿尔伯塔大学等机构的研究者提出了stream-x算法,以克服深度强化学习中的流式障碍。
02该方法无需使用重放缓冲区、批量更新或目标网络,可从最新的经验中进行学习。
03为此,研究提出了两种技术来提高流式学习方法的样本效率:稀疏初始化和资格迹。
04实验结果显示,stream-x算法在电力消耗预测任务、MuJoCo Gym、DM Control Suite、MinAtar和Atari 2600上的性能均优于经典方法和批量强化学习。
05强化学习之父Richard Sutton力荐stream-x算法,称其克服了流式障碍,具有稳定性和鲁棒性。
以上内容由腾讯混元大模型生成,仅供参考
机器之心报道