强化学习–互动学习的艺术

想要请客吗?只需阅读几分钟!

我打算记下增强学习的整体而有趣的观点。机器学习的分支是任何人都可以联系最多的。运用惊人的强化学习理论,可以从根本上完全理解解释我们日常生活行为,思考方式甚至是打乒乓球的能力。

“还不相信我!只有在我计划通过这篇小文章来探索它之后,才能说服自己!”

强化学习

路线图将从介绍/动机开始,然后我们将介绍与应用程序相关的强化学习的每个重要模块。 “只喜欢理论的库兹!”另外,让’s是RL的强化学习。与应用程序相关的主要焦点是RL如何帮助解决电子商务金融世界中的问题,“当然,我们不能遗漏Atari游戏!”

因此,让我们直接潜水吧!

介绍

用最简单的话来说,RL正在学习如何将状态映射到动作。所谓“如何”,是指可以产生最大回报的最佳映射。这里有三个新词:状态,动作和奖励。让我们以乒乓球游戏为例,一个一个地介绍他们。

 

假设您正在玩乒乓球。当球到达您的球场时,场景的快照可能表示状态。

AI Time Journal资源
您正在学习数据科学吗?

Check out what 图书 帮助20多个成功的数据科学家成长。

  1. 球在空中的位置
  2. 它的速度和旋转运动
  3. 蝙蝠的动态
  4. 你的身体姿势
  5. 桌子上吹来的风
  6. 对手和蝙蝠的下落
  7. 还有您渴望胜利和肾上腺素水平的渴望–所有的妆容,我们称之为STATE。

很多时候,很难量化组成状态的各个组成部分。在这种情况下,我们从环境中采样了一组我们认为足以说明状态的特征,而在其他情况下,状态空间是相对简单的可量化的。

从“State” to “Action”

好的,我们知道状态是什么!我们如何定义“行动”?在给定状态的情况下,如果您决定切分并旋转球,则称为动作。如果您决定将球砸碎,那也是一个动作,轻轻地将球拍打过网。因此,我们意识到状态空间和动作空间都可能非常复杂。根据问题设置,它们可以是连续的或离散的。

奖励

最佳期限奖励已保存到最后。现在想象一下,对手的球是棒棒糖,或者他刚刚将球抛向空中,穿过网。现在,如果您选择粉碎,则很有可能赢得胜利。同样,如果您也像新秀一样投入比赛,那么赢得积分的可能性就会大大降低。此处的奖励是您在那场比赛中获得的积分,目标是使这些奖励的总和最大化,直到比赛结束或’直到情节结束为止。

所以, 强化学习正在寻找状态与行动的最佳匹配 这样我们就可以争取到尽可能多的奖励。


在下一篇文章中,我们将区分三种学习形式:有监督,无监督和强化。
坚持学习学习的艺术!直到下一次!干杯!

该系列的下一篇文章:

2. 有监督与无监督与加强

3. 多臂强盗–强化学习

4. 一类解决多武装强盗的算法

 

李小龙打乒乓球真的很好!

贡献者

Flipkart的决策科学家

贡献者表达的观点是他们自己的观点。

关于Prateek Singhi

Flipkart的决策科学家

查看Prateek Singhi发表的所有帖子→