格莱美也“陷落“了,看人工智能如何剥夺生活中未知的”惊喜“?
第59届格莱美颁奖典礼在美国洛杉矶落下帷幕,英国歌手阿黛尔(Adele)横扫5项大奖成为赢家:《Hello》和《25》分别获得赢得第59届最佳年度歌曲奖、年度最佳流行女歌手以及最佳流行专辑,追平Taylor Swift的两次年专纪录。此外《Hello》还赢得了年度最佳制作奖。碧昂斯以《Formation》赢得最佳音乐录影带奖。歌手David Bowie则凭《Blackstar》获得年度最佳摇滚歌手奖。
如果你对人工智能略有了解,对于这个结果应该不会感到陌生 – 微软的人工智能已经在昨天对获奖进行了预测,并通过钱江晚报发布文章,最终“押中”9个最为重要的奖项。
(微软人工智能预测)
其实不只音乐,近几年人工智能在诸多领域,均已依托搜索引擎大数据,以及机器学习算法的革新进步,正在将不可预知的未来逐步变得清晰透明 – 苏格兰公投、英国脱欧、美国大选、奥斯卡颁奖… …虽然预测结果有事略有偏差,但整体准确率依然惊人。
我们仍以微软的人工智能为例,在2016年里约奥运期间,凭借必应搜索引擎的大数据支持,以及相应的算法模型,微软的人工智能“微软小冰”以超过83%的准确率,准确预测了几乎所有赛事的胜负及冠亚军。尤其是在女排项目中,成功预测赛前不被看好的中国女排将一路突破重围,斩获冠军。
(小冰公布预测结果,中国女排将会以57%的几率,击败塞尔维亚赢得金牌)
“随着我们的工作进展,我们已经了解到,网络活动比民意调查结果更不具有偏见,因此我们可以从网络趋势中提取比传统民意调查更多的信息。过去的工作表明,当被公开调查时,人们的回答可能会有意或无意的体现出偏见,而总体网络活动不包含这种偏见“。在Bing Predicts发布的最新文章《利用搜索算法Bing预测》中,我们了解到,一些民众不能影响的事件(例如,谁能赢得NFL)仍然可以由网络活动推断,这是“人群智慧”现象的体现。就像Monty Hall问题,我们的团队观察到,当你深入细节,你就能获得更多的信息。
当然,相比较于体育赛事、民意调研,这类依靠网络大数据数据建模分析的预测不同,格莱美的评选除了需要海量数据外,还需要很好的分析判断出少数专家评审们的意见。在这里简单为大家剖析一下。对于人工智能和机器学习的建模,其标准的步骤主要包括以下几个步骤:数据特征化、数据的获取,数据的清理、建模和最后的评估。
1. 数据的特征化:和专家的常见观点略有不同,笔者认为首先,也是最重要的步骤,不是获取数据,而是确定特征化工程如何做。什么是特征化?举个简单的例子,机器人是无法理解格莱美候选人是什么,我们需要将候选人的特征用数据表示出来,最终达到机器人可以处理的目的。这些特征包括人类本身的特点,例如性别、发专辑量,歌曲类型等等,还可以包括入围者之间的关系、入围者与粉丝之间的互动等。这也是为什么很多预测模型都热衷于互联网用户的行为分析,因为这些数据不仅直接反应了粉丝和入围者人直接的关系,且本身都是数字化,很容易获取并进行特征化处理。之所以个人觉得这步非常关键,首先是因为良好的特征,可以帮助我们更有效地刻画事物,提升机器学习的效果。此外,只有特征集合确定了,才能确定获取哪些数据。
2. 数据的获取和清洗:确定了刻画入围者的特征,接下来就需要通过各种渠道来获取相关的数据。搜索引擎其实在做的是一套模糊算法,经过一系列的算法计算,将最优秀的结果带到用户面前,而这种结果上的呈现也颠覆了传统所认知的对于目标的定义。来自互联网数据也意味着更多的噪音和错误,我们需要一些方法来清洗数据,使其变得可用,或将负面印象降到最低。尤其是在专家评选的预测当中,人工智能式预测可以调用给定专家的思维,但是如果遇到需要检测全民意志的活动,就只能够采取抽样调查的方式,那么如何抽样将会成为另外一个棘手的问题。
3. 建模:对于目前主流的机器学习算法,这里不再赘述。你可以尝试不同的模型,对比效果。例如,你可以将历届获奖者作为正例,入围而未获奖者为负例,训练一个分类模型。也可以找到入围者的特征差异,做一个线性回归的模型等等。
4. 评估:你可以通过历史数据,使用交叉验证的方式,确定模型的精准度。结合之前多次格莱美奖评选的结果进行了模拟测验。在模拟测验结束之后,又把这些结果统一的放进预测模型当中进行机器学习。如果验证后的精度足够准确,就可以尝试对未来的奖项预测进行结果上的预判。显然,最有效的评测还是和真实结果做比对。
在预测这件算法是一系列包含能够帮助人解决问题、完成目标任务的规则的步骤。用正确的方式把这些步骤和规则组织起来,能够自动化算法建立人工智能(AI)。AI能够帮助我们做大量的分析性工作,让我们把时间集中于更有价值的事情。未来五年,我们将看到更多基于大数据的算法和模型,用于增强企业与消费者的交互,并提升消费者在购物、交易以及决策时的体验。
其实每个人都可以有自己的解读,我这里只呈现一个初步的解读。我们不会再谈论牵强附会的人机对抗问题,而是会想尽办法利用人工智能将海量大数据转化成井然有序的信息。在大数据时代,我们追求的不再是绝对目标,而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。我们将追求无限的近似而不是绝对的正确。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.