网易首页 > 网易号 > 正文 申请入驻

最强AlphaGo降临,柯洁称相比下“人类太多余了”

0
分享至

(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)

人工智能研究在语音识别、图像分类、基因组学和药物研发等领域已经取得了迅速的发展。在许多情况下,这些专业的系统依赖大量的来自人类的专业知识和数据。

然而,对于某些问题,这种人类知识或者数据可能成本过高、不可靠或根本不可用。因此,人工智能研究的一个长期目标就是绕过这一步,在那些最具挑战性的领域中创造出超人的性能,而且摆脱传统的人工层面的投入。

而这其中最有代表性、也最广为人知的莫过于 Google DeepMind 开发的人工智能围棋应用 AlphaGo。就在今天,《Nature》官网刊出了一篇名为“Self-taught AI is best yet at strategy game Go”的头条文章,DeepMind 关于 AlphaGo Zero 的最新论文也随之曝光。

从零开始

AlphaGo 是世界上第一个在围棋这项古老的中国游戏中击败世界冠军选手的 AI,而在今年的人机大战中击败人类顶尖棋手柯洁的 AlphaGo 最新版本——AlphaGo Zero——已经变得更为强大,可以说是“历史上最强的围棋选手”。

中国棋手柯洁在得知AlphaGo Zero的消息后,也第一时间发微博表示:人类太多余了......

之前版本的 AlphaGo 最初接受了基于数千人的业余和专业游戏的训练,而 AlphaGo Zero 则跳过这一步,从简单的自我对弈和随机游戏开始,之后 AlphaGo Zero 很快就超过了人类的水平,不仅如此,它还以 100:0 的完美比分打败了此前公布的 AlphaGo 版本“Master”。

通过全新的强化学习(reinforcement learning)方式,AlphaGo Zero 真正做到“无师自通”。整套 AI 系统始于一个对围棋一无所知的神经网络,通过一套强大的搜索引擎来与自己对弈。这个原本一片空白的神经网络与自己对弈的局数越多,就越能准确的调整与预测下一步棋的走法,对围棋的掌握程度也越来越高。

这套升级过的神经网络通过与搜索算法的再次整合,最终形成了全新的、更强大的 AlphaGo Zero,并不停重复这一过程。在每一个迭代版本中,系统的性能都有小的提升,自我对弈的质量也越来越高,因此形成了一个越来越精准的神经网络,这就是空前强大的 AlphaGo Zero。

这种技术相比以前版本的 AlphaGo 要更为强大,因为它不再受到人类知识的限制。相反,它可以从世界上最强的 AlphaGo 那里获得学习与提升。

除此以外,它与以前的版本在其它方面也有着明显的差别:

  • AlphaGo Zero 仅使用棋盘上的黑白子作为输入,而以前版本的 AlphaGo 则包含少量的人为设定功能。

  • AlphaGo Zero 只使用一个神经网络。AlphaGo 的早期版本则使用两个神经网络,其中“策略网络”用来选择下一步的走法,“价值网络”从每一步棋预测游戏的获胜者。而这两部分在 AlphaGo Zero 中得以整合,使其能够更有效地进行训练和评估。

  • AlphaGo Zero 也不使用“走子”(rollout)这一其它围棋程序在游戏中常用到的胜者推测方法。相反,它依靠其高质量的神经网络来评估每一步该怎么走才最终可能获胜。

而所有这些差异将有助于提高系统的表现并使其更为通用。但最核心的还是算法的提升使得系统变得更加强大和高效。

图丨得益于硬件和算法的双重优化,AlphaGo 的效率已经得到了空前的提升

经过短短三天的自我训练之后,AlphaGo Zero 就轻松击败了与李世乭对战的那版 AlphaGo,而且是 100 场对决无一败绩。而经过 40 天的自我训练之后,AlphaGo Zero 又变得更强了,击败了“Master”版本的 AlphaGo,而当时世界排名第一的柯洁就是败给了 Master。

图丨ELO等级分制度(Elo ratings),是当今对弈水平评估的公认的权威方法

而在 DeepMind 最新公布的关于 AlphaGo Zero 的论文中,也对其技术原理和学习机制做了深入分析。以下是论文重点概述:

图丨《不使用人类知识掌握围棋》

人工智能领域一个长期以来的目标就是一款可以在困难的领域中,从“一片空白”(Tabula Rasa)开始学习,直到实现超越人类能力的算法。

去年,AlphaGo 成为了首个在围棋上战胜人类世界冠军的软件。AlphaGo 的树搜索可以对局势进行分析,并使用深神经网络选择每一步的落子。这些神经网络是在人类专家的棋路上使用监督学习,以及在自我对弈中使用增强学习训练出来的。我们在本论文中提出了一个纯基于增强学习,不需要任何人类数据和帮助,或者规则之外任何知识的算法。AlphaGo 成为了它自己的老师:一个神经网络被训练得可以预测 AlphaGo 自己的每一步、甚至每一局的胜利者。

这个神经网络可以提高树搜索的强度,产生更高质量的落子选择,以及下一局自我对弈中更强的棋手。从“一片空白”开始,我们的新程序——AlphaGo Zero 实现了超越人类的表现:在与之前发表的战胜了人类冠军的 AlphaGo 的对弈中实现了惊人的 100 比 0 的胜率。

原版的 AlphaGo 设计有两个深度神经网络:一个计算每步落子的概率的策略网络,以及一个计算每步后的局势的价值网络。这两个神经网络被蒙特卡洛树搜索(MCTS)结合在了一起:用策略网络将搜索范围缩小为高概率的落子,用价值网络来判断搜索树中的每个局势。战胜李世乭那个版本的 AlphaGo 正是这个设计。

图丨AlphaGo 对战李世乭

新版的 AlphaGo Zero 则与原版有着多个重要的区别。首先,它是从随机落子状态,完全通过自我对弈和增强学习训练出来的。其次,它的输入函数只有棋盘上的黑白子。再次,它只使用一个神经网络,而不是策略和价值这两个神经网络。最终,它使用的树搜索更简单,只依靠这单个神经网络来判断局势和落子,而不会进行任何蒙特卡洛快速走子(Monte Carlo Rollout)。

简单来说,AlphaGo Zero 的神经网络会先列出下一步棋的可能性,再通过执行蒙特卡洛树搜索(MCTS)在这些可能性中选择最优解。通过将神经网络计算结果与 MCTS 筛选出的结果进行对比,反向再对神经网络的参数进行调整优化,使得神经网络与 MCTS 间的误差更小。在下一局自我对弈时,神经网络便会拥有一套升级版的参数。通过不停重复这个过程,在数百万次优化后,最终打造出强大的 AlphaGo Zero。

AlphaGo 的自我对弈强化学习机制

DeepMind 团队确定这套强化学习的技术原理后,将其应用在第二个版本的 AlphaGo Zero 上,这个版本拥有规模更大的神经网络和更长的训练时间。从“毫无章法”的随意走子开始,训练仅仅持续了约 40 天。

在整个训练过程中,AlphaGo Zero 共进行了 2900 万次自我对弈,进行了 310 万次参数升级。随后,DeepMind 团队现在内部对 AlphaGo Zero 进行了棋力评估,分别用战胜樊麾和李世乭的 AlphaGo 版本,以及在 2017 年 1 月以 60:0 在线完胜最强人类棋手的 AlphaGo Master,来与 AlphaGo Zero 对弈。

在整个棋力评估过程中,各版本的 AlphaGo 们仅有 5 秒时间来“思考”下一步棋的走法。其中,AlphaGo Zero 和 AlphaGo Master 只配备了 4 个 TPU(张量处理单元),而此前战胜樊麾和李世乭的 AlphaGo 则分别配备了 176 个和 48 个 TPU。

最终结果是,在最初的 AlphaGoZero 与 AlphaGo Master 持续两小时的 100 局对战中,前者以 89:11 完胜后者。

图丨Elo 棋力排名显示,AlphaGo 花了 3 天时间超越 AlphaGo 李世乭版本,21 天后超越 AlphaGo Master。

ELO 等级分制度(Elo ratings)是由匈牙利裔美国物理学家 Elo 创建的一个衡量衡量竞争性游戏中玩家的相对技能水平的评分方法,是当今对弈水平评估的公认的权威方法,被广泛应用于国际象棋、围棋、足球等运动,以及很多网游与电子竞技产业。在 AlphaGo 的开发过程中,Elo 排名的变化直观显示了 AlphaGo 是如何迅速变强的。

在数以千万计的 AlphaGo pk AlphaGo 的游戏中,系统从零开始逐渐学习了围棋游戏,并在短短几天的时间里积累了数千年的人类知识。另外,AlphaGo Zero 还发现了新的知识,可以开发一些非常规策略和创新之举,甚至还超越了其在与李世乭和柯洁的比赛中所发挥的惊人之举。

AlphaGo 发挥创意的那些时刻让我们对这一未来颇具信心:人工智能将成为创造力高于人类的存在,并帮助我们解决人类面临的一些最重要的挑战。

虽然仍处于上述愿景的早期阶段,但 AlphaGo Zero 是迈向这一目标的关键一步。如果可以将类似的技术应用于其他结构化问题,如蛋白质折叠、减少能源消耗或寻找革命性的新材料,这些突破在对社会产生积极影响上潜力巨大。

责任编辑:王凤枝_NT2541

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
孙兴杰:美国援乌法案过关 ,对欧俄对峙格局有重大影响

孙兴杰:美国援乌法案过关 ,对欧俄对峙格局有重大影响

直新闻
2024-04-24 23:01:30
“八达岭老虎咬人案”8年后,女儿仍未得到父亲的原谅..

“八达岭老虎咬人案”8年后,女儿仍未得到父亲的原谅..

书画艺术收藏
2024-04-23 19:15:03
抚州大风,背后有妖

抚州大风,背后有妖

林孤小姐
2024-04-23 12:51:15
金喜善因女儿丑被质疑整容,称长开就好了,12年后却被打脸!

金喜善因女儿丑被质疑整容,称长开就好了,12年后却被打脸!

山水缥缈
2024-04-25 08:10:11
《城中之城》看见苏见仁死后手里的油画,才知程家元为何当行长!

《城中之城》看见苏见仁死后手里的油画,才知程家元为何当行长!

汤汤慢
2024-04-25 11:33:27
欧阳娜娜斩男白t太绝了

欧阳娜娜斩男白t太绝了

阿芒娱乐说
2024-04-25 17:17:10
44岁马琳暂别国乒,亮相陕西新职务,远离国乒争议

44岁马琳暂别国乒,亮相陕西新职务,远离国乒争议

最爱乒乓球
2024-03-09 00:08:25
云南扎西导游后续:游客把录音发网上,更多细节曝光,评论区沦陷

云南扎西导游后续:游客把录音发网上,更多细节曝光,评论区沦陷

子芫伴你成长
2024-04-25 22:19:26
一个中年女人,主动给你三样东西,多半是真爱

一个中年女人,主动给你三样东西,多半是真爱

莲子说情感
2024-04-19 11:27:26
江西女F4“火”了:相亲要求离谱,像是来许愿的,王婆都带不动!

江西女F4“火”了:相亲要求离谱,像是来许愿的,王婆都带不动!

小波谈教育
2024-04-23 15:05:08
中方大手一挥,5450亿美债已被抛,美态度突变,看来中国是例外

中方大手一挥,5450亿美债已被抛,美态度突变,看来中国是例外

匹夫来搞笑
2024-04-25 17:32:11
重庆:前夫开豪车看儿子,女子打扮精致主动迎接:想复婚

重庆:前夫开豪车看儿子,女子打扮精致主动迎接:想复婚

情感舍论汇
2024-04-22 21:13:07
美国这次加息,是成功的,亚洲各国几乎都被收割了,特别是日本

美国这次加息,是成功的,亚洲各国几乎都被收割了,特别是日本

泸沽湖
2024-04-25 10:05:11
江苏一“色虎”落马:为养情人敛财一亿,遭“省长”情人蒙骗

江苏一“色虎”落马:为养情人敛财一亿,遭“省长”情人蒙骗

天闻地知
2024-04-26 09:38:41
苹果手机,天气预报的精准度,百思不得其解

苹果手机,天气预报的精准度,百思不得其解

两晨科技
2024-04-25 23:12:58
确认了!历时10年,浙江宁波新世界全面竣备!K11开业时间预计在

确认了!历时10年,浙江宁波新世界全面竣备!K11开业时间预计在

阿离家居
2024-04-26 06:32:01
江苏首发省级算力基础设施规划:将建2个国家级核心算力枢纽

江苏首发省级算力基础设施规划:将建2个国家级核心算力枢纽

澎湃新闻
2024-04-25 12:04:28
泼水节原来这么危险!网友:去过一次再也不敢去了

泼水节原来这么危险!网友:去过一次再也不敢去了

音乐时光的娱乐
2024-04-25 18:32:26
天哪,原来洗钱离我们这么近

天哪,原来洗钱离我们这么近

三妹辣评
2024-04-25 14:25:04
毛主席去世44年后,彭德怀绝密电报首次公开,毛岸英牺牲真相浮现

毛主席去世44年后,彭德怀绝密电报首次公开,毛岸英牺牲真相浮现

历史龙元阁
2023-10-15 02:52:11
2024-04-26 11:10:44
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13763文章数 511324关注度
往期回顾 全部

科技要闻

雷军周鸿祎出圈:中年CEO,抢着当网红

头条要闻

牛弹琴:"欧洲一姐"被指比美国还美国 马克龙想炒掉她

头条要闻

牛弹琴:"欧洲一姐"被指比美国还美国 马克龙想炒掉她

体育要闻

库里当选最佳关键球员 10项数据联盟第一

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

房产
旅游
本地
亲子
公开课

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

旅游要闻

京都热门景点一棵樱花树突然倒下 游客被砸成重伤

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

亲子要闻

子宫内压力过大可能影响宝宝颜值……一起来听健康早闻!2024年4月26日

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版