格莱美“陷落”了，看人工智能如何剥夺生活中的“惊喜”

分享至

格莱美也“陷落“了，看人工智能如何剥夺生活中未知的”惊喜“？

第59届格莱美颁奖典礼在美国洛杉矶落下帷幕，英国歌手阿黛尔(Adele)横扫5项大奖成为赢家：《Hello》和《25》分别获得赢得第59届最佳年度歌曲奖、年度最佳流行女歌手以及最佳流行专辑，追平Taylor Swift的两次年专纪录。此外《Hello》还赢得了年度最佳制作奖。碧昂斯以《Formation》赢得最佳音乐录影带奖。歌手David Bowie则凭《Blackstar》获得年度最佳摇滚歌手奖。

如果你对人工智能略有了解，对于这个结果应该不会感到陌生 – 微软的人工智能已经在昨天对获奖进行了预测，并通过钱江晚报发布文章，最终“押中”9个最为重要的奖项。

（微软人工智能预测）

其实不只音乐，近几年人工智能在诸多领域，均已依托搜索引擎大数据，以及机器学习算法的革新进步，正在将不可预知的未来逐步变得清晰透明 – 苏格兰公投、英国脱欧、美国大选、奥斯卡颁奖… …虽然预测结果有事略有偏差，但整体准确率依然惊人。

我们仍以微软的人工智能为例，在2016年里约奥运期间，凭借必应搜索引擎的大数据支持，以及相应的算法模型，微软的人工智能“微软小冰”以超过83%的准确率，准确预测了几乎所有赛事的胜负及冠亚军。尤其是在女排项目中，成功预测赛前不被看好的中国女排将一路突破重围，斩获冠军。

（小冰公布预测结果，中国女排将会以57%的几率，击败塞尔维亚赢得金牌）

“随着我们的工作进展，我们已经了解到，网络活动比民意调查结果更不具有偏见，因此我们可以从网络趋势中提取比传统民意调查更多的信息。过去的工作表明，当被公开调查时，人们的回答可能会有意或无意的体现出偏见，而总体网络活动不包含这种偏见“。在Bing Predicts发布的最新文章《利用搜索算法Bing预测》中，我们了解到，一些民众不能影响的事件（例如，谁能赢得NFL）仍然可以由网络活动推断，这是“人群智慧”现象的体现。就像Monty Hall问题，我们的团队观察到，当你深入细节，你就能获得更多的信息。

当然，相比较于体育赛事、民意调研，这类依靠网络大数据数据建模分析的预测不同，格莱美的评选除了需要海量数据外，还需要很好的分析判断出少数专家评审们的意见。在这里简单为大家剖析一下。对于人工智能和机器学习的建模，其标准的步骤主要包括以下几个步骤：数据特征化、数据的获取，数据的清理、建模和最后的评估。

1. 数据的特征化：和专家的常见观点略有不同，笔者认为首先，也是最重要的步骤，不是获取数据，而是确定特征化工程如何做。什么是特征化？举个简单的例子，机器人是无法理解格莱美候选人是什么，我们需要将候选人的特征用数据表示出来，最终达到机器人可以处理的目的。这些特征包括人类本身的特点，例如性别、发专辑量，歌曲类型等等，还可以包括入围者之间的关系、入围者与粉丝之间的互动等。这也是为什么很多预测模型都热衷于互联网用户的行为分析，因为这些数据不仅直接反应了粉丝和入围者人直接的关系，且本身都是数字化，很容易获取并进行特征化处理。之所以个人觉得这步非常关键，首先是因为良好的特征，可以帮助我们更有效地刻画事物，提升机器学习的效果。此外，只有特征集合确定了，才能确定获取哪些数据。

2. 数据的获取和清洗：确定了刻画入围者的特征，接下来就需要通过各种渠道来获取相关的数据。搜索引擎其实在做的是一套模糊算法，经过一系列的算法计算，将最优秀的结果带到用户面前，而这种结果上的呈现也颠覆了传统所认知的对于目标的定义。来自互联网数据也意味着更多的噪音和错误，我们需要一些方法来清洗数据，使其变得可用，或将负面印象降到最低。尤其是在专家评选的预测当中，人工智能式预测可以调用给定专家的思维，但是如果遇到需要检测全民意志的活动，就只能够采取抽样调查的方式，那么如何抽样将会成为另外一个棘手的问题。

3. 建模：对于目前主流的机器学习算法，这里不再赘述。你可以尝试不同的模型，对比效果。例如，你可以将历届获奖者作为正例，入围而未获奖者为负例，训练一个分类模型。也可以找到入围者的特征差异，做一个线性回归的模型等等。

4. 评估：你可以通过历史数据，使用交叉验证的方式，确定模型的精准度。结合之前多次格莱美奖评选的结果进行了模拟测验。在模拟测验结束之后，又把这些结果统一的放进预测模型当中进行机器学习。如果验证后的精度足够准确，就可以尝试对未来的奖项预测进行结果上的预判。显然，最有效的评测还是和真实结果做比对。

在预测这件算法是一系列包含能够帮助人解决问题、完成目标任务的规则的步骤。用正确的方式把这些步骤和规则组织起来，能够自动化算法建立人工智能（AI）。AI能够帮助我们做大量的分析性工作，让我们把时间集中于更有价值的事情。未来五年，我们将看到更多基于大数据的算法和模型，用于增强企业与消费者的交互，并提升消费者在购物、交易以及决策时的体验。

其实每个人都可以有自己的解读，我这里只呈现一个初步的解读。我们不会再谈论牵强附会的人机对抗问题，而是会想尽办法利用人工智能将海量大数据转化成井然有序的信息。在大数据时代，我们追求的不再是绝对目标，而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。我们将追求无限的近似而不是绝对的正确。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.