谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

  • 小编 发布于 2019-12-01 00:16:46
  • 栏目:科技
  • 来源:科技也有料
  • 8074 人围观


谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

作为引发AI人工智能热潮的,谷歌的AlphaGo早已为人所熟知。特别是AlphaGo在几乎横扫人类围棋选手后,却宣布收手隐退江湖。不过所有人的心里都清楚,围棋项目上人类是已经不可能战胜AI了。但是对于谷歌旗下的DeepMind来说,战胜人类,显然还不是他们开发AlphaGo的终极目的。因此在经过多次技术迭代,算法优化之后。近日,谷歌推出了终极版的AlphaGo:MuZero。

谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

那么这次的MuZero又和之前的AlphaGo有何区别呢。目前DeepMind公开推出的AlphaGo一共有三个大版本。第一个版本,AlphaGo,能通过学习人类大师的棋谱,再加上自己与自己下(左右互搏),最后练成高手,战胜人类世界冠军。第二个版本,AlphaZero,可以不用人类棋谱,只是懂得规则后就开始左右互搏,3天出关,并且超过阿尔法狗。最后一个版本,MuZero,没有规则,一开始就左右互搏。像小孩子玩电脑游戏,不用看说明,上手就玩,在玩中学习规矩(需要给MuZero看一些游戏图像,让它知道什么是正常情况,已经如何判断输赢)。

谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

简单来说,就是以前的AlphaGo每换一种游戏(如围棋换成国际象棋),就需要更换核心算法。因为每种游戏的规则不同,而这些规则通常都已经整合到AI所使用的算法当中。只有算法中包含有规则,AI才能不断的训练学习,找到如何取胜的最优解。

谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

但是对于谷歌最新推出的这版MuZero来说,已经完全不需要提前把游戏规则编入算法。MuZero是在过程中学习规则,一边学规则,一边训练。并且MuZero可以将这种学习手法应用到不同游戏中,结果全部达到甚至超出各个游戏的最佳程序(比如围棋中的阿尔法零)。而且这样训练出来的MuZero在和AlphaZero下围棋时,MuZero搜索步数更少却反而更强,这说明MuZero对围棋的理解比AlphaZero更深。

谷歌推出终极版AlphaGo:MuZero,能自学掌握规则,能否超越人类

而DeepMind开发MuZero的动机就是,在现实生活中有许多问题(比如股票,战场),并没有现成的规则,许多规则都在随时改变。因此AI要想能真正应用到现实之中,就要有能力在没有掌握规则的前提下,边应对边学习规则,最终还要能掌握规则并应对获胜。而这正是人类以前对人工智能最大的优势。但现在看来,DeepMind再一次把AI的智能水平推进了一大步。虽然现在我们还无法预测AI未来到底是否能超越人类,可是现在面对人工智能这样快速的发展趋势,你还笑得出来么?

对此你怎么看,欢迎留言讨论。

【如果喜欢本文,请关注小编,跟踪最新科技动态】

转载请说明出处:五号时光网 ©