当前位置:yabo亚博登录 > 卫浴设计效果图简介 >

卫浴设计效果图简介 训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

来源:未知发布时间:2021-07-16

 

DeepMind 挑出的 Rainbow 算法,能够让 AI 玩 Atari 游玩的程度升迁一大截,但该算法计算成本专门高,一个主要因为是学术钻研发布的标准清淡是必要在大型基准测试上评估新算法。来自谷歌的钻研者经过增补和移除差别组件,在有限的计算预算、中幼型环境下,以幼周围实验得到与 Rainbow 算法相反的终局。

人们普及认为,将传统深化学习与深度神经网络结相符的深度深化学习,首于 DQN 算法的开创性发布。DQN 的论文展现了这栽组相符的重大潜力,外明它能够产生玩 Atari 2600 游玩的有效智能体。之后有众栽手段改进了原首 DQN,而 Rainbow 算法结相符了很众最新挺进,在 ALE 基准测试上实现了 SOTA 的性能。然而这一挺进带来了专门高的计算成本,拥有优裕计算资源的和异国计算资源之间的差距被进一步拉大。

在 ICML 2021 的一篇论文《Revisiting Rainbow: Promoting more Insightful and Inclusive Deep Reinforcement Learning Research》中,钻研者最先商议了与 Rainbow 算法有关的计算成本。钻研者探讨了经过结相符众栽算法组件,以幼周围实验得到与 Rainbow 算法相反的终局,并将该思想进一步推广到在较幼的计算预算上进走的钻研如何挑供有价值的科学见解。

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

论文地址:https://arxiv.org/abs/2011.14826卫浴设计效果图简介

Rainbow 计算成本高的一个主要因为是学术钻研发布的标准清淡是必要在大型基准测试(例如 ALE,其中包含 57 款深化学习智能体能够学会玩 Atari 2600 游玩)上评估新算法。清淡行使 Tesla P100 GPU 训练模型学会玩一个游玩大约必要五天时间。此外,倘若想要竖立有意义的置信边界,清淡起码实走 5 次运走。

所以,在全套 57 款游玩上训练 Rainbow 必要大约 34,200 个 GPU hour(约 1425 天)才能挑供令人钦佩的性能实验数据。如许的实验只有能够在众个 GPU 上并走训练时才可走,这使得较幼的钻研幼组看而却步。

Rainbow 算法

与原首 Rainbow 算法的论文相通,在 ICML 2021 的这篇论文中,钻研者评估了在原首 DQN 算法中增补以下组件的凶果:双 Q 学习(double Q-learning)、优先经验回放(prioritized experience replay,PER)、竞争网络、众步学习、分布式深化学习和喧华网络。

该钻研在四个经典限制环境中进走评估。必要仔细的是,相比于 ALE 游玩必要 5 天卫浴设计效果图简介,这些环境在 10-20 分钟内就能够完善十足训练:

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

左上:在 CartPole 中,游玩义务是智能体经过旁边移动均衡推车上的一根杆子;右上:在 Acrobot 中,有两个杠杆和两个连接点,智能体必要向两个杠杆之间的连接点施添力以举高下面的杠杆使其高于某个高度请求。左下:在 LunarLander 中,智能体的义务是将飞船下落在两个旗帜之间;右下:在 MountainCar 中,智能体必要在两座山丘之间借助肯定的动力将车开到右边的山顶。

钻研者探究了将每个组件单独增补到 DQN 以及从完善 Rainbow 算法中删除每个组件的凶果,并发现总的来说每一个算法组件的增补都实在改进了基础 DQN 的学习凶果。然而,该钻研也发现了一些主要的迥异,例如清淡被认为能首到改进作用的分布式 RL 自己并不总是能够产生改进。实际上,与 Rainbow 论文中的 ALE 终局相逆,在经典限制环境中,分布式 RL 仅在与其他组件结相符时才会产生改进。

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

上图表现了在 4 个经典限制环境中卫浴设计效果图简介,向 DQN 增补差别组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越益)。

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

上图表现了在 4 个经典限制环境中卫浴设计效果图简介,从 Rainbow 中移除各栽组件时的训练进度。x 轴为训练 step,y 轴为性能(越高越益)。

钻研者还在 MinAtar 环境中重新运走了 Rainbow 实验,MinAtar 环境由一组五个幼型化的 Atari 游玩构成,实验终局与原 Rainbow 论文相通。MinAtar 游玩的训练速度大约是通例 Atari 2600 游玩的 10 倍,其中后者的训练速度是在最初的 Rainbow 算法上评估的。此外,该钻研的实验终局还有一些趣味的方面,例如游玩动态和给智能体增补基于像素的输入。所以,该钻研挑供了一个具有挑衅性的中级环境,介于经典限制和完善的 Atari 2600 游玩之间。

综相符来看,钻研者发现现在的终局与原首 Rainbow 论文的终局相反——每个算法组件产生的影响能够因环境而异。钻研者提出行使单一智能体来均衡差别算法组件之间的权衡,该钻研的 Rainbow 版本能够与原首版本高度相反,这是由于将一切组件组相符在一首会产生团体性能更益的智能体。然而,在差别算法组件之间,有一些主要的细节转折值得进走更彻底的探究。

「优化器 - 亏损函数」差别组相符实验

DQN 被挑出时,同时采用了 Huber 亏损和 RMSProp 优化器。对于钻研者而言,在构建 DQN 时行使相通的选择是一栽常见的做法,由于钻研者将大片面时间用在了其他算法设计上。

而该钻研重新商议了 DQN 在矮成本、幼周围经典限制和 MinAtar 环境中行使的亏损函数和优化器。钻研者行使 Adam 优化器进走了一些初首实验,现在 Adam 优化器是最通走的优化器,并在实验中结相符行使了一个更浅易的亏损函数,即均方偏差亏损 (MSE)。由于在开发新算法时,优化器和亏损函数的选择往往被无视,而该钻研发现在一切的经典限制和 MinAtar 环境中,这二者的转折都能让实验终局有隐微的改进。

所以,钻研者将两个优化器(RMSProp、Adam 优化器)与两个亏损函数(Huber、MSE 亏损)进走了差别的组相符,并在整个 ALE 平台(包含 60 款 Atari 2600 游玩)上进走了评估。终局发现 Adam+MSE 组相符优于 RMSProp+Huber 组相符。

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

在默认 DQN 竖立下(RMSProp + Huber),评估 Adam+MSE 组相符带来的改进(越高越益)。

此外,在比较各栽「优化器 - 亏损函数」组相符的过程中,钻研者发现当行使 RMSProp 时,Huber 亏损往往比 MSE 外现得更益(实线和橙色虚线之间的间隙能够表明这一点)。

训练Rainbow必要1425个GPU Day?谷歌说深化学习能够降矮计算成本

对 60 款 Atari 2600 游玩的标准化得分进走汇总,比较差别的「优化器 - 亏损函数」组相符。

在有限的计算预算下,该钻研钻研者能够在高层次上复现论文《Rainbow: Combining Improvements in Deep Reinforcement Learning》的钻研,并且发现新的、趣味的形象。隐微,重新注视某事物比首次发现更容易。然而,钻研者开展这项做事的现在标是为了论证中幼型环境实证钻研的有关性和主要性。钻研者坚信,这些计算强度较矮的环境能够很益地对新算法的性能、走为和复杂性进走更关键和彻底的分析。该钻研期待 AI 钻研人员能够把幼周围环境行为一栽有价值的工具,评审人员也要避免无视那些凝神于幼周围环境的实验做事。

【编辑选举】卫浴设计效果图简介

浅析 SpringMVC 中返回对象的循环引用题目 韩国上半年新闻通信技术周围出口额创纪录 一看就懂的 Systemd 进程管理教程 关于IT流程成功的硬道理 服务器又崩了?深度解析高可用架构的挑衅和实践

Powered by yabo亚博登录 @2013-2021 RSS地图 HTML地图