通过强化学习训练神经网络

我知道前馈神经网络的基础知识，以及如何使用反向传播算法对其进行训练，但是我正在寻找一种算法，该算法比我可以用于通过强化学习在线训练ANN的算法还要多。

例如，我想用人工神经网络解决小车杆向上摆动的问题。在那种情况下，我不知道应该怎么做来控制摆，我只知道我离理想位置有多近。我需要让ANN在奖惩基础上学习。因此，监督学习不是一种选择。

另一种情况是像蛇游戏，反馈被延迟，并且仅限于目标和反目标，而不是奖励。

我可以想到一些针对第一种情况的算法，例如爬山算法或遗传算法，但我猜它们都将很慢。它们也可能适用于第二种情况，但速度非常慢，并且不利于在线学习。

我的问题很简单：

我主要对实时奖励情况感兴趣，但是如果有针对目标情况的算法可用，那就更好了。

有一些关于该主题的研究论文：

和一些代码：

这些只是该主题的一些Google顶级搜索结果。前几篇论文看起来不错，尽管我还没有亲自看过。我想，如果您在Google

Scholar上进行快速搜索，则会发现更多有关增强学习的神经网络信息。