什么是强化学习?它与监督学习和无监督学习有何不同?

在强化学习方法中,经过训练的代理与特定环境交互并根据该环境的当前状态采取行动。

强化学习的工作如下 -

  • 首先,您需要准备一个具有一些特定策略集的代理。

  • 现在让代理观察环境的当前状态。

  • 基于代理的观察,选择最优策略,并执行合适的动作。

  • 根据采取的行动,代理将获得奖励或惩罚。

  • 如果需要,更新步骤 1 中使用的策略集。重复步骤 1-4 的过程,直到代理学习并采用最优策略。

众所周知,监督学习方法在训练过程中同时获取训练数据及其相关输出。但是无监督学习方法不需要任何标签或响应以及训练数据,它们从给定的原始数据中学习模式和关系。而在强化学习方法中,代理以离散的步骤与特定环境交互。

如果我们谈论输出,监督学习方法预测基于类类型,无监督学习方法发现潜在模式,但在强化学习方法中,存在学习代理工作的奖励和行动系统。

以上是 什么是强化学习?它与监督学习和无监督学习有何不同? 的全部内容, 来源链接: utcz.com/z/335462.html

回到顶部