通过强化学习训练神经网络

我知道前馈神经网络的基础知识,以及如何使用反向传播算法对其进行训练,但是我正在寻找一种算法,该算法比我可以用于通过强化学习在线训练ANN的算法还要多。

例如,我想用人工神经网络解决小车杆向上摆动的问题。在那种情况下,我不知道应该怎么做来控制摆,我只知道我离理想位置有多近。我需要让ANN在奖惩基础上学习。因此,监督学习不是一种选择。

另一种情况是像蛇游戏,反馈被延迟,并且仅限于目标和反目标,而不是奖励。

我可以想到一些针对第一种情况的算法,例如爬山算法或遗传算法,但我猜它们都将很慢。它们也可能适用于第二种情况,但速度非常慢,并且不利于在线学习。

我的问题很简单:

我主要对实时奖励情况感兴趣,但是如果有针对目标情况的算法可用,那就更好了。

回答:

有一些关于该主题的研究论文:

  • 通过不断发展的神经网络拓扑进行有效的强化学习(2002)
  • 使用神经网络的强化学习及其在电机控制中的应用
  • 强化学习神经网络解决移动机器人自主避障问题

和一些代码:

  • 神经网络强化学习的代码示例。

这些只是该主题的一些Google顶级搜索结果。前几篇论文看起来不错,尽管我还没有亲自看过。我想,如果您在Google

Scholar上进行快速搜索,则会发现更多有关增强学习的神经网络信息。

以上是 通过强化学习训练神经网络 的全部内容, 来源链接: utcz.com/qa/405363.html

回到顶部