网易首页 > 网易号 > 正文 申请入驻

AI的智商(IQ)怎么测?这其实是个策略比赛

0
分享至

大数据文摘出品

编译:halcyon、蒋宝尚

在Google I/O 2018开发者大会上,发布了一款名为Google Duplex的语音助手,其表现非常惊艳,一时间大家都认为Google Duplex通过了图灵测试。然而,一些人持反对意见,认为Duplex并没有通过图灵测试,单击这里查看相关报道。

如何判断AI是否具有和人脑相当的能力一直是受争议的话题,图灵测试是否是唯一的判断方法?保加利亚科学院(Bulgarian Academy of Sciences)的最新论文给出了计算AI的智商(IQ)的方法,尝试利用不同的实验方法量化AI的IQ,并给出AI的定义。

在大数据文摘微信公众号后台回复“智商”可下载论文~

以下是论文精华内容:

识别计算机程序是否为AI所要做的就是对它们进行测试并对通过测试的AI给予奖励。假定AI在测试中获得的分数为IQ,我们无法确定一个程序通过测试成为AI的最低IQ阈值,故我们选择一个特定值作为阈值。因此,我们定义AI为任何一个IQ高于该阈值的程序。

对于AI的测试,就类似于高考。考试中给出的问题是随机选择的,但所有考生都会遇到同样的问题。此外,解决问题需要进行逻辑思考,因为我们的目标是招收那些具有逻辑思维的学生,而不是偶然蒙对正确答案的幸运学生。

考试的分数基于每个考生解决的问题数量而设定。我们不能说应该解决多少问题,因为我们不知道考试中会有多少考生,也不知道他们的具体水平。我们可能会设定一个分数(例如4.50),并说我们打算录取所有分数超过4.50的考生。但是,在测试完成后要对最低分数进行修正。然后,我们将录取分数超过最低分数的前n位考生(例如,如果n为100,我们将录取分数排名在前100的考生)。

但是如果被测对象是计算机程序,高考的类比就不再合适。此时对AI的测试更像是应聘同一家公司CEO职位的招聘竞赛。

尽管图灵测试定义了受过教育的智力,是因为图灵非常理解受过教育和没受过教育的差异。他问了这样一个问题:“为什么试着去编写一个模拟成人思维的程序,而不试着去编写一个模拟孩子思维的程序呢?”

本文给出的AI的定义回答了这个问题。它不需要包括提前教育,并且测试中的任务也不需要任何先验知识。也就是说,每一项任务我们都会假设我们正在重新开始,并且在解决我们正在学习的任务的过程中,我们发现相关性信息并从错误中学习。

我们定义了全局IQ和局部IQ的概念。AI的全局IQ更准确,但却无法精确计算(因为组合爆炸问题)。AI的局部IQ并不准确,因为它取决于测试中特定任务的选择。但对于特定的任务,可以很容易和准确地计算局部IQ。

我们将采用完全随机的程序产生的序列,而不是采用特殊的k-可理解序列(k-comprehensible sequence)。我们在每一步预测下一个符号,而不是通过一个步骤预测符号。对一个序列的奖励将是所有步骤的奖励的总和。局部IQ将是我们在测试中序列的奖励均值。

问题设计

假设在特定的世界(World)中,我们拥有一个设备(Device )。 在每个步骤中,设备产生n个符号(也即行为,Action),然后从外部接收m个符号(在我们的术语中,第一个符号为“奖励”,其余的m-1符号为“观察”)。奖励可分为五种状态:{无,胜利,无败,平局,不正确的移动}。

设备的一个步骤由三个元素组成:<动作, 奖励, 观察>,在设备与世界的互动过程中所做出的一系列的步骤决定了其本身的生命。

“真实生命”应该没有不正确的移动。因此,所有的奖励值是不正确移动的<动作, 奖励, 观察>三元素都会被移除,剩下的就是真实生命。。

动作”(moment)由一系列步骤组成,而在这些步骤中,只有最后一步是正确的,除此之外,其他所有的步骤都将是错误的。实际上,生命中可能由很多步骤组成,不仅是动作,然而在真实的生命中,这些其他步骤的数量和动作的数量是相同的。

设备的行为可以表示为一种策略,即作为一个定义设备每一次生命开始,下一次动作的函数,同样地,世界的行为也可以作为一种策略来呈现,为设备每一种生命的开始,每一种行为都提供了奖励和观察,设备将会在下一个步骤中得到它们。应该指出的是,世界的策略不依赖于错误的动作。因此,我们可以把世界的策略想象成现实生活的函数。相反,设备的策略将取决于不正确的移动(这些移动将提供设备使用的附加信息)。

假设两个集合,Q和S,这些将是设备和世界内部状态的集合。这些集合将是有限的或可数的。设q_0和s_0分别是设备和世界的初始状态。我们会假设这些状态是固定的,因为生命将取决于我们最初的状态,但我们希望生命只依赖于设备和世界。

设备和世界定义为下面的两个函数:

对于每一个设备的内部状态,如果奖励,观察和动作集合在当时认为是不正确的,那么,设备将会返回一个新的行为和一个新的设备状态。我们假定设备永远不会返回在当时被确认为不正确的行为。

设备的内部状态会反映设备能记住的所有事情,那么它能记住什么呢?它能记住它的直到当前的最后一次行动,这就是我们使用Actions*Q而不是Q*Actions的原因。再次强调,设备的内部状态可以记住最后一次行动。

定义设备的生命如下:

让我们看看设备和世界函数是怎样定义生命的。

在这里,i-j是i+1之前的最后一个正确步骤,incorrect_actions_i 集合包含此刻不正确的行动。该集合具有j个元素,因此 incorrect_actions_i ={a_i-j+1, …, a_i}。incorrect_actions_0是个空集,因为在第一步之前不会有任何不正确的行动。

参数

上表的前四行描述了AI输入和输出的参数。它们告诉我们所寻求的AI的格式。因此,我们不能随意改变这些参数。接下来的八行所描述的参数会影响你选择测试世界,从而会影响到测试结果,也就是影响AI的定义。最后一个参数也会对定义产生影响。这就意味着,如果我们改变了上述的九个参数,我们也会改变AI的定义。

第i个动作符号的可能范围从0到ki-1。同样,第i个观测符号的可能范围也是从0到kn+1-i -1。我们假设符号0的含义是“没有”。第一个观察符号是奖励。而符号1,2,3我们命名为“胜利”,“失败”,“平局”,当然这会是最后的奖励。

奖励4(不正确的移动)因为调用了命令q1,所以不会被图灵机器返回。只有当图灵循环,即在没有到达最终状态的情况下执行1000步以上,或崩溃(例如,当堆栈为空时调用返回命令)时才会返回此奖励。

符号的数量尽可能的满足编码、行动和观察所需。我们将添加另外10个实用符号,其中第一个符号将为空符号λ。

测试原理

我们将为测试选择1000个世界。在每一个世界中,待测程序的生存周期都不超过1000场比赛。最后,我们将计算胜利,失败,平局的数量,并获得算术平均IQ值,其中胜利为1,失败为0,平局为1/2。

我们将随机选择世界,但我们希望选择的世界是固定的,所以我们在开始选择之前,将伪随机数生成器设置为1。因此,我们在测试中将永远使用相同的世界。在许多生成的世界里,我们剔除全赢和全输的世界。因此,我们将留下1000个有意义的世界。

世界

一个世界就是能够计算策略的图灵机器。

世界集合包含少于1000个状态的图灵机,因为每台机器都有不可到达的状态。结果是一个巨大的策略集合(世界集合)。这里更简单的策略将分配更多(更有可能)权重,因为它们由更多的图灵机产生。

计算特定计算机程序的IQ

我们可能会说IQ是所有世界成功率的算术平均值。(注:世界不是等概率的,我们需要把成功率乘以每个世界的概率(权重)。)

我们将这样获得的IQ称为全局IQ。全局IQ的定义很好,但无法计算。准确地说,它可以在理论上计算,但不能在实践中计算,因为有大量存在的世界。尽管如此,我们仍然可以用统计学方法近似计算出全局IQ。我们将随机选择1000个世界并计算这些世界算术平均值。获得的结果会接近全局IQ。

这种方法的问题是不同的测试世界的选择会产生不同的全局IQ近似。我们需要的是奖励给待测程序对应的IQ,因为它必须是一个特定的值而不是近似值。因此我们将修正随机选择的1000个世界,并认为局部IQ是这1000个世界的平均成功率。在这种情况下,不同的世界将不会有不同的权重,因为权重已经在测试世界的选择中得到了体现所以更有可能被选中。

局部IQ是一个容易计算的函数,它描述了我们对IQ的理解。有一个程序我们称之为“填鸭式”。这个程序是专为1000个测试世界而设计的,它的局部IQ很高,但它的全局IQ很低。我们应该如何解决这个问题?

我们将利用局部IQ来寻找AI。当我们遇到一个局部IQ很高的程序并且假定这个程序是填鸭式的,我们会给它额外的问题,所以我们会计算第二个局部IQ。这也意味着我们会采用下1000个随机世界并且从这些世界中推导另外一个算术平均值。以此类推,可以构建第三个甚至第四个局部IQ。

我们给出全局IQ的定义为:

在这个式子中,P(TM|interesting):如果世界有趣,机器TM被选中的条件概率。Success(Strategy,TM):策略在TM机器定义的世界存活一次计算出的算术平均值。总和是具有1000个状态的机器,其世界是有趣的。

局部IQ的定义为:

其中,TM_i是第i个预先选择的测试世界。

最终的定义

定义1:AI是任意局部IQ超过0.7的策略。

同样,一个公司可能会宣布它正在寻找CEO,并且会雇用能解决测试中70%问题的人。如果标准太低或太高,公司以后可能不得不调整这个水平。

定义2:如果一个计算机程序在前1000个游戏中的策略是一个AI策略,那么该计算机程序是AI。

结论

在这项研究中,我们描述了一种测试,它能让我们计算任何程序的IQ。更准确地说,我们指定了进行测试的程序,并告诉我们待测程序的IQ是多少。

这个程序可以让我们在几分钟内完成AI测试。这个时候测试程序需要计算测试结果。然后我们应该增加我们为每一个候选提供的思考时间。当我们把AI作为一种策略时,我们不需要问测试程序花多少时间思考。当我们把AI当作一个程序计算出AI策略时,我们必须确定程序计算一个步骤所消耗的时间。

在大数据文摘微信公众号后台回复“智商”可下载论文~

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
131比78!秋风扫落叶,广东男篮狂胜广厦,张明池不同凡响

131比78!秋风扫落叶,广东男篮狂胜广厦,张明池不同凡响

撒丁岛体育
2024-03-29 21:37:56
如何知晓自身免疫力强弱?医生:免疫力强的人,有8个特征

如何知晓自身免疫力强弱?医生:免疫力强的人,有8个特征

旧梦初醒已千年
2024-03-28 11:28:27
老美曝80%大疆“芯”非国产,须罚60亿,业内:大疆根本不怕打压

老美曝80%大疆“芯”非国产,须罚60亿,业内:大疆根本不怕打压

科技龙
2024-03-28 16:42:39
新华社快讯:据以色列军方29日消息,以军打死一名黎巴嫩真主党火箭导弹部队副指挥官。

新华社快讯:据以色列军方29日消息,以军打死一名黎巴嫩真主党火箭导弹部队副指挥官。

新华社
2024-03-29 19:51:16
网红五大姥爷突然去世,生前被儿媳嫌脏送养老院,最后露面照曝光

网红五大姥爷突然去世,生前被儿媳嫌脏送养老院,最后露面照曝光

求实者
2024-03-29 10:56:37
李泽楷女友参加婚礼!打扮珠光宝气显富贵,郭嘉文C位被追捧

李泽楷女友参加婚礼!打扮珠光宝气显富贵,郭嘉文C位被追捧

室内设计师阿喇
2024-03-29 16:49:21
12人出场12人得分!杜锋终于忍不了:没上场的球员我也要感谢他们

12人出场12人得分!杜锋终于忍不了:没上场的球员我也要感谢他们

体坛野秀才
2024-03-29 22:07:02
正式离队!27岁后卫告别辽宁男篮,离开CBA赛场,杨鸣不留情面

正式离队!27岁后卫告别辽宁男篮,离开CBA赛场,杨鸣不留情面

保持热爱0263
2024-03-29 14:37:03
日本,彻底爆发!

日本,彻底爆发!

可可可乐乐
2024-03-29 13:42:11
恼羞成怒!曝巴黎强挖皇马灵魂人物:开3倍年薪+绝对话语权

恼羞成怒!曝巴黎强挖皇马灵魂人物:开3倍年薪+绝对话语权

叁炮体育
2024-03-29 11:49:29
林更新今晚在家看到自己被拍成这样嘴都要笑歪了

林更新今晚在家看到自己被拍成这样嘴都要笑歪了

娱乐圈酸柠檬
2024-03-29 16:45:19
为保命,巨贪怒吼:判死刑,我就揭发!上诉被驳回,2011年被枪决

为保命,巨贪怒吼:判死刑,我就揭发!上诉被驳回,2011年被枪决

诗意世界
2024-03-29 10:15:03
中纪委怒批:为什么动不动就问责公务员?

中纪委怒批:为什么动不动就问责公务员?

法律读品
2024-03-28 21:08:55
陪伴广州人38年的它,突然宣布结业!不到一天后遇戏剧性翻转……

陪伴广州人38年的它,突然宣布结业!不到一天后遇戏剧性翻转……

番禺台
2024-03-29 00:39:20
湖南降雨再度发展!清明假期省内有明显降温天气

湖南降雨再度发展!清明假期省内有明显降温天气

潇湘晨报
2024-03-29 17:49:22
炸裂!冉莹颖自曝大瓜,和老公邹市明已分房3年,网友评论炸锅了

炸裂!冉莹颖自曝大瓜,和老公邹市明已分房3年,网友评论炸锅了

琪琪侃娱
2024-03-29 08:11:09
我是镇书记、老王是镇长,他升为副县长我原地踏步,后来他说出真相

我是镇书记、老王是镇长,他升为副县长我原地踏步,后来他说出真相

乔生桂
2024-03-27 19:00:36
开国少将回乡祭祖,见到等自己22年的童养媳,妻子却说:接她回家

开国少将回乡祭祖,见到等自己22年的童养媳,妻子却说:接她回家

趣知史馆
2024-03-28 20:25:03
明日西部9场对决,湖人、快船和勇士同时开战,火箭11连胜稳了!

明日西部9场对决,湖人、快船和勇士同时开战,火箭11连胜稳了!

体坛无名
2024-03-29 17:46:56
6人上双力克东北虎!北京首钢提前开香槟,季后赛稳了,利夫23+9

6人上双力克东北虎!北京首钢提前开香槟,季后赛稳了,利夫23+9

环太平洋老正太
2024-03-29 21:38:35
2024-03-29 22:20:49
大数据文摘
大数据文摘
专注大数据,每日有分享!
6162文章数 94231关注度
往期回顾 全部

科技要闻

雷军:我们是卷王,建议BBA车主感受下时代

头条要闻

美"双头姐妹"之一已婚 丈夫带8岁女儿加入"重建家庭"

头条要闻

美"双头姐妹"之一已婚 丈夫带8岁女儿加入"重建家庭"

体育要闻

足坛反腐涉案金额:6人超千万李铁1.2亿

娱乐要闻

胡夏被曝有孩子!工作室火速辟谣

财经要闻

张维迎:如何正确理解企业家精神?

汽车要闻

找回久违的开怀大笑 试驾小米SU7 Max

态度原创

旅游
数码
本地
公开课
军事航空

旅游要闻

赏花不止于“春” 农文旅融合助力乡村

数码要闻

6999元!国产三合一平板发布:AMD芯片+Windows

本地新闻

专访|张伟潮:最年轻的龙头专职制造者

公开课

30岁之前,你要学会的13件事情

军事要闻

乌方声称击落两枚俄"锆石"高超音速导弹 俄方未予回应

无障碍浏览 进入关怀版