文峰百事通

用户登录

首页

首页

资讯

查看

你的《超等马里奥兄弟》通关了没?AI乐成拿下29个关卡

2020-08-03/ 文峰百事通/ 查看: 214/ 评论: 10

摘要原标题:你的《超等马里奥兄弟》通关了没?AI乐成拿下29个关卡《超等马里奥兄弟》你能玩到第几关?提及这款FC

原标题:你的《超等马里奥兄弟》通关了没?AI乐成拿下29个关卡

《超等马里奥兄弟》你能玩到第几关?

提及这款FC期间的经典游戏,各人可能再熟悉不外了,大鼻子、留胡子,永远穿着背带工装服的马里奥大叔,成为了许多80/90后的童年回忆。

看着画面中熟悉的马里奥大叔一起跌跌撞撞,躲避半路杀出来的毒蘑菇,锤子乌龟,头盔兔子、食人花,感觉又回到了小时候。

最早刊行的这版《超等马里奥兄弟》设置8个场景,每个场景分为4关,共32个关卡,信赖许多朋友至今还没有完全通关。

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此,他决定利用强化学习AI算法来帮他完成未通关的遗憾。

现在他训练出的AI马里奥大叔已经乐成拿下了29个关卡。

不外,遗憾的是第4、7、8场景中的第4关卡未通过。Viet Nguyen解释说,这与游戏规则的设置有关。在一场游戏竣事后,玩家可以自行选择通关路径,但这可能出现重复访问同一关卡的情况,以是AI未乐成进入到这三关游戏之中。

Viet Nguyen使用的强化学习算法正是OpenAI研发的近端计谋优化算法(Proximal Policy Optimization,简称PPO),他先容,此前使用A3C代码训练马里奥闯关,效果远不及此,这次可以或许到达29关也是超出了原本的预期。

现在Viet Nguyen已经将基于PPO编写的完备Python代码公布到了Github上,并给出了详细的使用说明,感兴趣的朋友可以体验一下:

Github地址:https://github.com/uvipen/Super-mario-bros-PPO-pytorch

还会玩Dota的AI算法:PPO

据相识,PPO是OpenAI在2017年开发的算法模子,主要用来训练虚拟游戏玩家OpenAI Five,这位虚拟玩家在2018年的Dota2人机反抗赛中,战赛过世界顶级职业选手,同时可以或许打败99.95%的平凡玩家。

庞大的游戏情况一直被研究职员视为AI训练的最佳场景。为了让AI掌握游戏规则,学会运用计谋,强化学习是研究职员常用的呆板学习要领之一,它可以或许描述息争决AI智能体(Agent)在与情况交互历程中通过学习计谋实现特定目标的问题。

近端计谋优化算法(PPO)已成为深度强化学习基于计谋中效果最优的算法之一。有关该算法的论文已经公布在arXiv预印论文库中。

论文中指出,PPO是一种新型的计谋梯度(Policy Gradient)算法,它提出新的“目标函数”可以举行多个训练步骤,实现小批量的更新,解决PG算法中步长难以确定的问题。固定步长的近端计谋优化算法如下:

(每次迭代时,N个actor中的每个都网络T个时间步长的数据。 然后在这些NT时间步长的数据上构建替换丧失,并使用 minibatch SGD 举行K个epochs的优化。)

研究职员表明,该算法具有信托区域计谋优化(TRPO)的一些优点,但同时比它实行起来更简朴,更通用,具有更好的样本庞大性(凭经验)。为了证实PPO的性能,研究职员在一些基准使命上举行了模拟测试,包括人形呆板人运动计谋和Atari游戏的玩法。

PPO算法的基准使命测试

在游戏脚色的AI训练中,一种基本的功效是具备连续性的运行和转向,如在马里奥在遇到诸如地面或者空中停滞时,可以或许以此为目标举行跳转和躲避。论文中,研究职员为了展示PPO的高维连续控制性能,接纳3D人形呆板人举行了测试,测试使命分别为:

(1)仅向前运动;(2)每200个时间步长或到达目标时,目标位置就会随机变化;(3)被目标击倒后,需要从地面站起来。以下从左至右依次为这三个使命的学习曲线。

研究职员从以上学习曲线中,随机抽取了使命二在某一时刻的性能体现。如下图,

可以看出,在第六帧的放大图中,人形呆板人朝目标移动,然后随机改变位置,呆板人可以或许追随转向并朝新目标运行。说明PPO算法在连续转控方面具备精彩的性能体现。

那么它在详细游戏中“获胜率”如何呢?研究职员运用Atari游戏合集(含49个)对其举行验证,同时与A2C和ACER两种算法举行了对比。为排除滋扰因素,三种算法全部使用了相同的计谋网络体系,同时,对其他两种算法举行超参数优化,确保其在基准使命上的性能最大化。

如上图,研究职员接纳了两个评估指标:(1)在整个训练期间每集的平均获胜数;(2)在连续100集训练中的每集的平均获胜数。 前者更适合快速学习,后者有助于终极的角逐体现。可以看出PPO在指标一种的获胜次数到达了30,在小样本下有更高的胜率。

末了研究职员还夸大,PPO近端计谋优化的上风还在于简洁好用,仅需要几行代码就可以更改为原始计谋梯度实现,适用于更通例的设置,同时也具有更好的整体效果。

末了一问:


https://baijiahao.baidu.com/s?id=1673985336156864789&wfr=spider&for=pc

鲜花

握手

雷人

路过

鸡蛋
收藏 分享 邀请
上一篇:暂无

最新评论

返回顶部