网易首页 > 网易号 > 正文 申请入驻

完爆阿尔法狗元,DeepMind用5000台TPU训练出新算法

0
分享至

大数据文摘作品

作者:姜范波、Aileen、Yawei Xia、龙牧雪、魏子敏

距离阿尔法狗元版本刷屏一个多月时间,阿尔法狗又进化了,这次不光可以玩围棋,不再是“狗”了。我一点也不惊讶。

在用阿尔法狗(AlphaGo)和阿尔法狗元(AlphaGo Zero)称霸围棋世界后,当地时间周二晚,DeepMind的研究组宣布已经开发出一个更为广泛的阿尔法元(AlphaZero)系统,它可以训练自己在棋盘,将棋和其他规则化游戏中实现“超人”技能,所有这些都在一天之内完成,并且无需其他干预,战绩斐然:

  • 4个小时成为了世界级的国际象棋冠军;

  • 2个小时在将棋上达到世界级水平;

  • 8个小时战胜DeepMind引以为傲的围棋选手AlphaGo Zero。

这不禁让文摘菌想到了落入乾坤一气袋的张无忌瞬间精进的场景:

在各路高手的真力激荡之下打通数十处玄关,练成了独步天下的九阳神功,从此化身武林学霸。短短几个时辰内就练成了第七层乾坤大挪移,无论是太极拳剑还是圣火令武功都手到擒来,成为武林的百科全书。

尽管如此,阿尔法元(AlphaZero)距离一个真正的通用目标,独立AI,还有一定的距离 。国际象棋和将棋是比较容易的测试,因为它们比围棋简单。而像“星际争霸2”这样复杂的视频游戏完全是另一码事,更不用说散步、艺术或抽象思维等模糊的概念了。

另外还有速度的问题:虽然用来学习棋盘游戏的时间少于24小时,但对于AI需要现场适应的情况,速度太慢。DeepMind报告也说,训练该软件使用了5064台功能强大的定制机器学习处理器(被称为TPU)。(简直野蛮暴力)

但仍然不可否认,这是人工智能迈出的重要一步。

在大数据文摘后台回复“alpha”,下载DeepMind最新论文

论文地址 https://arxiv.org/pdf/1712.01815.pdf (还未经过peer review)

回忆人工智能的历史,很多人的印象都是一堆“各类技能”冠军——井字棋、跳棋和国际象棋。几十年来,研究人员已经研制了一系列超级专业的程序,在越来越高难度的游戏中击败人类。近期在围棋上,Deepmind的阿尔法狗也超越了人类。但是,这些人造冠军们的共同弱点是——都只能玩某一种精心设计的游戏。而人类即使在某些技能上输了,在精通多种技艺这一点上,仍然完爆人工智能。

近日,DeepMind官方宣布了第一个多技能的AI棋类游戏冠军程序。当地时间周二晚,Deepmind发布的一篇论文描述了一款名为AlphaZero的软件,它可以在三种具有挑战性的游戏中自学,表现超越人类:国际象棋,围棋或将棋(亦称日本象棋)。

DeepMind在文章中描述了AlphaZero的学习过程。人类不再是国际象棋,围棋和将棋中最好的选手,所以AlphaZero就用最好的专业人工选手(计算机程序Stockfish、Elmo、AlphaGo Zero)进行测试。这个新程序很快就打败了这三个人工棋手:

只用了4个小时成为了世界级的国际象棋冠军;用2个小时在将棋上达到世界级水平;只花了8小时战胜DeepMind引以为傲、也是之前已知最好的围棋选手AlphaGo Zero。

图:经过70万步训练的AlphaZero。它的对手是国际象棋的2016TCEC世界冠军程序Stockfish,将棋的2017CSA世界冠军程序Elmo,和大家都知道的AlphaGo Zero。每一手棋双方只有1秒的反应时间。

DeepMind也表示,新程序AlphaZero模仿AlphaGo Zero,通过同样的自我对练机制学习。AlphaZero核心的算法是它的升级版本,能够搜索更广泛的可能策略以适应不同的游戏。

AlphaZero可以从头开始学习三个游戏中的每一个,尽管它需要按照每个游戏的规则进行编程。该程序通过与自己对练提高技能成为专家,尝试不同的玩法来发现获胜的途径。

图:人类常用的国际象棋的12种开局方式解析

AlphaZero还没有办法学会同时参加三场比赛。但是,一个程序学习三种不同的复杂游戏,能达到如此高的水平,还是惊人的,因为AI系统——包括那些可以“学习”的——通常是非常专业的,需要经历磨练来解决特定的问题。即使是最好的人工智能系统也不能在两个问题之间进行泛化——因此,许多专家认为机器要取代人还有很长一段路要走。

AlphaZero可能是AI系统走向非专门化的一小步。纽约大学教授Julian Togelius在周二发布的推文中指出,真正泛化的AI还道阻且长,但称DeepMind的论文“非常出色”。

图:国际象棋和将棋中,AlphaZero每一手棋的思考时间,和相应的模型表现(Elo)

而DeepMind的这一研究进展对于业界来说也非常重要。更灵活的机器学习软件可以帮助谷歌加速在业务内部扩展人工智能技术。DeepMind最新发明中的技术也可能帮助团队挑战视频游戏“星际争霸”(StarCraft),后者已经成为它的下一个目标。一个流行的商业视频游戏似乎没有正式而抽象的棋盘游戏那么令人生畏。但“星际争霸”被认为复杂度更高,因为它各种变量和特征的安排自由度更大,玩家必须预见对手不可见的行为。

相比可以学习三个以上的棋盘游戏,并能解决各种空间,常识,逻辑,艺术和社会难题的人脑,AlphaZero的智力水平仍然有限。

DeepMind论文中显示,AlphaZero在三种游戏中使用了同样的算法设置、神经网络结构和超参数。训练过程包括70万步(4096大小的mini-batch),从随机生成的参数开始,使用了5000台TPU生成自对抗的棋局,接着使用64台TPU训练神经网络。

一共5064台TPU!文摘菌不得不感慨“何以解忧,唯有暴富”。

相较于阿尔法狗元(AlphaGo Zero)用到的64台GPU和19台CPU,AlphaZero的算力可谓得到了指数级提升。算法的训练时间也从阿尔法狗元的“几天”提升到了现在的“8小时”。

回头看看战胜了李世石和柯洁的惊天动地的阿尔法狗,已经显得像原始人了。它用到了1920台CPU和280台GPU,需要训练几个月。

人工智能的发展,有3个驱动力——数据、算法、算力。神经网络的“左右互搏”在数据和算法上做出了突破,而谷歌的TPU计算资源支持更是AlphaZero致胜的秘诀之一。

从10月底围棋超人阿尔法狗元的诞生,到12月进化成三种棋类超人阿尔法元,不过只用了短短一个多月的时间。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
得加钱!荷媒:波特拒绝了贾府首份报价,与要求薪水相差太远

得加钱!荷媒:波特拒绝了贾府首份报价,与要求薪水相差太远

懂球帝
2024-04-26 11:38:11
媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

媚而不俗,高启兰隆妮不愧是人间尤物,与53岁的于和伟激吻!

慎独赢
2024-04-20 13:07:10
第14届北京国际电影节“天坛奖”揭晓,这部国产片成为最大赢家

第14届北京国际电影节“天坛奖”揭晓,这部国产片成为最大赢家

艺绽
2024-04-26 21:44:12
“史诗级渣男”翻车!被枕边人骗走10亿,这反转太刺激了……

“史诗级渣男”翻车!被枕边人骗走10亿,这反转太刺激了……

听风听你
2024-04-26 12:18:43
415:0压倒性通过!中国被迫被列入发达国家,取消国际优惠待遇

415:0压倒性通过!中国被迫被列入发达国家,取消国际优惠待遇

书经小课堂
2023-08-28 15:47:01
TikTok选择硬刚美国“舆论霸权”!称将在法庭上挑战“剥离”禁令

TikTok选择硬刚美国“舆论霸权”!称将在法庭上挑战“剥离”禁令

辉哥说动漫
2024-04-27 01:24:03
谢晖带队主场压着打遭开门黑 亚泰三度补时遭绝杀

谢晖带队主场压着打遭开门黑 亚泰三度补时遭绝杀

小马哥谈体育
2024-04-27 00:49:50
5杆50+只赢2局斯诺克世锦赛1/8决赛:斯佳辉2-6落后杰克-琼斯

5杆50+只赢2局斯诺克世锦赛1/8决赛:斯佳辉2-6落后杰克-琼斯

直播吧
2024-04-26 20:40:26
足协没看错这位名帅!带领中国男足4比4战平丹麦队,已征服球迷

足协没看错这位名帅!带领中国男足4比4战平丹麦队,已征服球迷

罗掌柜体育
2024-04-26 12:48:59
别了,切尔西!3年换4帅,曝波切蒂诺提前下课,穆帅有望回归?

别了,切尔西!3年换4帅,曝波切蒂诺提前下课,穆帅有望回归?

夏侯看英超
2024-04-26 14:24:41
滞胀前兆?华尔街又掀腥风血雨 “新美联储通讯社”:降息梦已渐行渐远

滞胀前兆?华尔街又掀腥风血雨 “新美联储通讯社”:降息梦已渐行渐远

财联社
2024-04-26 09:15:17
差距不算大?瓜帅执教生涯转会支出20.57亿,同期安帅支出15.62亿

差距不算大?瓜帅执教生涯转会支出20.57亿,同期安帅支出15.62亿

直播吧
2024-04-26 13:14:25
1988年,中央首长告诉她,毛岸英的事保密期已过,你可以说出来了

1988年,中央首长告诉她,毛岸英的事保密期已过,你可以说出来了

史海任我行
2024-04-27 00:00:52
88岁老戏骨住养老院近况曝光!好友带香蕉探望,独享双人房环境好

88岁老戏骨住养老院近况曝光!好友带香蕉探望,独享双人房环境好

阿芒娱乐说
2024-04-26 11:41:25
盘点:TikTok在哪些国家被禁 理由又分别是什么?

盘点:TikTok在哪些国家被禁 理由又分别是什么?

cnBeta.COM
2024-04-26 01:41:12
北京多家酒店全面取消“强制刷脸”

北京多家酒店全面取消“强制刷脸”

财联社
2024-04-25 16:52:12
苏起:两岸一旦开战,台湾会变成加沙,台湾网民:打就打,谁怕谁

苏起:两岸一旦开战,台湾会变成加沙,台湾网民:打就打,谁怕谁

人物娱记
2024-04-13 08:00:06
距离上次掘路不到一年,上海威海路怎么又开挖翻修了?

距离上次掘路不到一年,上海威海路怎么又开挖翻修了?

澎湃新闻
2024-04-26 20:50:34
再见巴萨!亚马尔2亿转会巴黎,拉波尔塔压力山大

再见巴萨!亚马尔2亿转会巴黎,拉波尔塔压力山大

元爸体育
2024-04-26 03:29:05
容易和别人发生“关系”的女人,大都会有这3个特征!

容易和别人发生“关系”的女人,大都会有这3个特征!

闻心品阁
2024-04-22 23:57:38
2024-04-27 02:16:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6203文章数 94250关注度
往期回顾 全部

科技要闻

车展观察|德系日系绝不能放弃中国市场

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

头条要闻

官方回应环卫工用电子秤测灰尘:正常作业达标有奖励

体育要闻

还得等!记者:恩昆库本周尝试参加训练 但又被退回医疗中心

娱乐要闻

金靖回应不官宣恋情结婚的原因

财经要闻

贾跃亭,真他娘是个人才

汽车要闻

2024北京车展 比亚迪的自驱力让对手紧追猛赶

态度原创

艺术
教育
游戏
亲子
房产

艺术要闻

画廊周北京迎来第八年, “漂留” 主题聚集 30 余家艺术机构与 40 场展览

教育要闻

湖南中考因式分解题,给你10秒想思路,做起来就容易了

《庄园领主》Steam特别好评:充满游戏性 优化良好

亲子要闻

台湾性治疗师田雅筑:女生在夫妻生活里恐惧逃避该怎么办?

房产要闻

海南最新房价出炉,三亚跌价最猛!

无障碍浏览 进入关怀版