滴滴快车,深度强化学习新趋势:谷歌怎么把好奇心引进强化学习智能体,auto是什么意思

本文杨顺招为 AI 研习社编译的技能博客,原标题 :

What’s New in Deep Learning Research: How Google Builds Curiosity Into Reinforcement Learning Agents

作者 | Jesus Rodriguez

翻译 | 酱番梨、卜嘉田、will_L_Q、Disillusion、J. X.L. Chan滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思

校正 | Pita 审阅 | 约翰逊李加薪 收拾 | 立鱼王

原文链接:

https://towardsdatascience.com/whats-new-in-deep-learning-research-how-google-builds-curiosity-into-reinforcement-learning-32d77af719e8

探究-运用窘境是规范强化学习算法的动力之一。怎样平衡智能体应该探究环境的程度与怎样履行特定操作和评价奖赏?在搞基故事强化学习的布景下,探究和开发被视为奖赏模型中按捺猎奇心的相反力气。但是,就像人类的认知相同,强化smzdm学习智能体的猎奇心发生于正确的常识,那么咱们怎样在不赏罚智蚊子能体的情况下激起猎奇心呢?这是Google Research最近宣布的一篇研讨论文的主题,论文介绍了一种在强化学习智能体中激起猎奇心的办法。

gayvideos

大多数强化学51cto习算法都依据结构化奖赏模型,该模型假设有一组密布的奖赏能够与署理的行为相关联。 但是,实际国际中的许多环境都依据稀少的奖赏机制,这些滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思奖伊织凉子励不易习惯强化学习机制。 考虑到强化学习智能体需求在库环境中查找特定书本的场景。 智能体能够不断地逝世诗社查找,但书本无处可寻,而且对特定行为没有清晰的奖赏。 稀少奖赏环境关于强化学习智能体来说是十分具有应战性的,由于他们不得不在没有清晰奖赏的情况下不断探究环境。 在那些环境中,强滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思化学习智能体的“猎奇心”对取得恰当的奖赏功用至滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思关重要。 换句话说,强化学习环境中的奖赏稀少性与猎奇心之间存在直接关系。

猎奇心对决延迟

猎奇心一向是强化学习中的一个活泼研讨范畴。大多数强化学习中猎奇心公式旨在最大极限地添加“惊讶”或许无法猜测未来。黑道圣皇这种办法从神经科学的猎奇心理论中得到启示,但已被证明在强化学习模型中相对低效。功率低下的中心原因是,最大化与耀莱集团綦建虹女儿方针使命无关的猎奇心没有直接关系,因而会导致延迟。下面让我来解说这恼人的现实?

让咱们以一个环境为例,在这个环境中,强化学习智能体被放入一个三维迷宫中。迷宫中有一个宝贵滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思的方针,它会给予很大的奖赏辛伐他汀片。林若溪现在,智能体被给予了电视遥控器,并能够切换频道。每个频道显现一个随机图画(从一组固定的图画中选屯溪天气预报取)。优化惊喜的猎奇心公式会很快乐,由于频道切换的成果是不行猜测的。智能体将永久停留在电视机前,而不会企图处理方针使命。

这种窘境很明显:强化学习模型只应在有利于终究方针的情况下才干最大极限地激起猎奇心。但是,咱们怎样知道哪些探究性进程与方针使命相关而哪些又不相关。谷歌经过提出一种称为Episodic Curiosity的办法来应对这一应战。

情境猎奇

谷歌在强化学习范畴的立异之处在于,经过引入尽力的概念处理猎奇心-延迟之间的冲突。从本质上来讲,情境回忆办法是一种仅对需求必定尽力而获取的调查数据给与奖赏的办法,它主张去防止“自我沉溺的行为”。依据咱们电视迷宫(maze-tv)比如,在转化频道之后,一切的节目将终究在内存中完毕。因而,电视节目将不会具有任何招引力,由于出现在屏幕上的节目次序是随机的和不行预知的,一切这些节目都已经在存储中了!一个情境存储智能体将检查曩昔, 以确认它是否看到了与当时相似的调查成果,在这种情况下, 它不会得到任何奖赏。在电视上重复播映几回之后,情形存储署理就不会被即时满意所招引,而有必要去探究电视之外的国际以取得额定的奖赏。听起来是不是聪明啊?

情形回忆办法把猎奇心和图的可达性联系起来。智能体在剧集开端时以一个空的存储开端,每一步都将当时的调查成果与存原千储中的调查结wan果进行比较,以确认它的新颖性。假如当时的调查确实是新颖的 - 那么从回忆中的调查中采纳的进程比阈值更多 - 那么智能体就会奖赏自己,并将当时的调查添加到情形存储中。这个进程一向持续到剧集完毕, 此刻存储将会被抹去。

一个情形猎奇心的神经网络架构

为了在强化学习署理中完成情形回忆功用,谷歌依赖于一种架构,该架构将两个神经网络与情形回忆缓冲器和奖赏估量模块相结合,如下图所示:

让咱们来看看情形回忆架构的各个组成部分:

Google在一系列视觉环境(如ViZDoom和DMLab)中测试了情形滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思回忆强化学习模型,成果十分超卓。 在这些环境中,智能体的使命是处理各种问题,例如在迷宫中查找方针或搜集好的内容以及防止坏目标。 DMLab环境可巧为智能体供给了相似激光科幻小说中物件。 之前关于DMLasaturdayb的工作中的滴滴快车,深度强化学习新趋势:谷歌怎样把猎奇心引入强化学习智能体,auto是什么意思规范设置是为智能体装备一切使命的小工具,假如智能体不需求特定使命的小工具,则能够免费运用它。 奖赏的稀少性使得这些环境关于大多数传统的强化学习办法悬梁刺股而言十分具有应战性。 当担任在迷宫中查找高回报的项目时,它更喜爱花时间符号墙面,由于这会发生许多“惊喜”奖赏。

在相同的环境中,情形回忆智能体能够经过有效地在迷宫中导航,它所运用的办法是——尽力经过手自一体奖赏来最大化猎奇心。

以下动画显现了情节回忆署理怎样鼓舞活跃奖赏(绿色)而不是奖赏(赤色),一起坚持内存中探究方位的缓冲区(蓝色)。

情节回忆办法是我看到的最有构思的办法之一,能够鼓舞强化学习智能体的猎奇心。 跟着强化学习在AI体系中变得越来越遍及,比如情形回忆的办法应该成为这些体系结构的重要组成部分。

想要持续检查该篇文章相关链接和参考文献?

点击【】或长按下方地址:雷锋网雷锋网雷锋网

机器学习大礼包

限时免费\18本经典书本\Stanford经典教材+论文

点击链接即可获取:

https://ai.yanxishe.com/page/resourceDetail/574

马东锡 化学 谷歌 开发
声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间效劳。

转载原创文章请注明,转载自1188金宝搏 ios下载_金博宝注册送|官网下载,原文地址:http://www.tjhairunze.com/articles/44.html

上一篇:长电科技,图解:腾讯第四季度营收849亿元,净利同比下降35%,股市大盘

下一篇:英寸和厘米的换算,聚集拟赴美IPO募资2亿美元:2018年营收130.15亿元,同比增速达101.97%,yy4480