如何将强化学习应用于连续动作空间？

我正在尝试让代理学习强化学习设置中最佳执行某些任务所需的鼠标移动（即，奖励信号是唯一的学习反馈）。

我希望使用Q学习技术，但是尽管我找到了一种将这种方法扩展到连续状态空间的方法，但是我似乎还无法弄清楚如何用连续动作空间解决问题。

我可以强迫所有鼠标移动到一定程度，并且只能在一定数量的不同方向上移动，但是使动作离散的任何合理方法都会产生巨大的动作空间。由于标准的Q学习需要代理评估

所有可能的动作，因此这种近似值在任何实际意义上都无法解决问题。

处理这个问题的常用方法是批评行为者的方法。这些自然扩展到连续的动作空间。基本Q学习在使用近似法时可能会有所不同，但是，如果仍然要使用它，可以尝试将其与自组织图结合起来，如“自组织图在强化学习中的应用”中所做的那样。本文还包含一些可能会有用的其他参考。