网易首页 > 网易号 > 正文 申请入驻

处处是“垃圾”:人工智能太缺高质量数据了

0
分享至

全文共2611字,预计学习时长7分钟

图源:blazent

某种程度上讲,人工智能已经超越了我们过去最大胆的想象;但再看实际中,Siri甚至无法告诉用户今天天气如何。

问题在于什么呢?创建高质量的数据库来训练和测量我们的模型仍然是件无比困难的事情。我们本应能在一天内收集到20000个标签来训练Reddit分类器,但实际相反,我们等待了三个月并得到了一个满是垃圾邮件的训练集。

四年前,AlphaGo打败了世界围棋专家们,大型科技公司们对每一个能接触到的机器学习创业公司进行了人才收购,《纽约时报》宣称道“机器学习将对计算机技术进行彻底改造”。

DeepMind建造人工智能来玩《星际争霸2》,到2019年底,名为“AlphaStar”的人工智能程序达到了大师级成就。

好像不用几年,Alexa就将会占领我们的家园,而Netflix会比我们的朋友更好地提出电影建议。

在那之后发生了什么?

更快的GPU放弃了训练神经网络的消耗,并允许越来越大的模型得到训练。新型工具们使基础建设工作更加的简单。

能够学习运行更主观的任务的新型神经网络结构也得到了发展。比如说OpenAi的GPT-3模型,这是一个语言生产器,能够撰写博客文章且拿下黑客新闻网站的头条。

一个关于生产效率的GPT-3写的博文拿下了黑客新闻的头条。

那么改革发生在何处?

所以为什么人工智能还没占领世界?为何人们虽然能用GPT-3来生成博文,但是社交媒体公司很难将煽动性的内容从订阅源中剔除?为何有了超人类的星际争霸算法,但电商们仍在推荐我再买一个吐司机?为何模型们能够合成现实的图片(和电影)但却无法面目识别?

模型正在进步,而数据仍止步不前。模型们在数据集上受到训练,而这些数据集仍存在有错误,且和创作者真正想表达的鲜少相符。

现在的数据怎么了?来也垃圾,去也垃圾

在某些情况下,数据是在基于类如链接和用户协议的代理商上进行训练。

比如说,社交媒体推文不是为了提供用户最佳体验而得到训练;相反,它们只是对链接和协议充分利用,这是最简单的数据获取途径。

但是点赞量与数量无关,骇人听闻的阴谋论非常捉人眼球,但是你真的想在你的推文中看到他们吗?这样的错误匹配导致了许多意料之外的副作用,包括有点击诱饵的激增,政治上的虚假信息广泛传播,充满恶意的、煽动性的内容广泛存在。

在另一些时候,模型在这样的数据集上进行训练:由非母语使用者或由那些知道低质量的结果永远不会被检测到的工作者创立的数据集。以下面推文为例:

一个典型的标记器会识别到“bitches”,“fucking”和“shit”并将此推文标记为有害的,不管这些谩骂其实是基于一个正向的,向上的态度。在训练集中这样的情况出现过无数次。数据定义模型。如果数据是错误标记的垃圾,没有一位机器学习专家能够防止模型也同样无用无效。

我们需要怎样的进步?

数据集问题引起了一大堆问题。

当遇到运行不佳的模型时,工程师们花费数月的时间来修补产品特征和新的算法,未曾意识到问题存在于他们的数据当中。本应用来凝聚亲情和友情的算法,相反之下,带来了炽热的情绪和愤怒的评论。如何解决这些问题呢?

· 熟练且高质量的,能够理解你正尝试去解决的问题的标记器

虽然AI系统越来越复杂,我们需要先进巧妙的人类标记系统来教导和测量它们的性能。想想那些对世界有足够了解的模型,可以对误导的信息进行分类,或者那些可以增加时间而不是点击的算法。

这种复杂程度不会因为多用低技能工人而提高。为了让我们的机器了解仇恨言论,并识别算法的偏见,我们需要高质量的、它们自己也了解这些问题的标签力量。

· 给机器学习小组和识别器交流的空间

机器学习模型在不断变化着。今日被识别为垃圾邮件的信息明天可能不会如此,而我们永不可能对标记口令的每一个边边角角都有所掌握。

正如构建产品是用户和工程师之间反馈驱动的过程一样,创建数据集也应该如此。当数一张图片中的脸时,卡通人物算吗?当标记仇恨言论时,引号在哪里?标记器在浏览了成千上万的例子后发现了歧义和见解,为了最大化数据质量,我们需要双方进行沟通。

· 目标功能与人类价值观一致

模型常常是在数据集上训练的,而这些数据集仅仅是它们真实目标的近似值,从而导致了意想不到的分歧。

例如,在人工智能安全的辩论中,人们担心机器智能发展到威胁世界的程度。另一些人则反驳说,这是一个在遥远的未来才会出现的问题——然而,看看今天科技平台面临的最大问题,这不是已经发生了吗?

例如,Facebook的使命不是获得“赞”,而是将我们与朋友和家人联系起来。但是通过训练其模型来增加喜好和互动,他们学会了传播那些高度吸引人的内容,但也会带来伤害和误导。

如果Facebook能将人类价值观注入到其培训目标中会怎样?这并不是一个幻想:谷歌搜索已经在其实验过程中使用了人类评估,我们正在构建的人工智能系统也致力于这样做。

一个数据驱动的AI未来

从核心而言,机器学习是关于教导计算机按照我们所想的方式工作,而我们通过示以正例的方法来实现目标。所以为了构建高质量的模型,一个机器学习工程师需要掌握的最重要技能不应该是构建高质量的数据集,并确保他们与手头的问题相符吗?

最终,我们关心的是AI能否解决人类的需求,而不是它是否超过了人工基准。

如果你在处理内容调节,你的数据集是检测到了恶意言论,还是也捕捉到积极向上、振奋人心的谩骂?

如果你正在建设下一代的搜索和推荐系统,你的数据集是在设置模型的相关性和质量,——还是令人入迷的误导和引诱点击?

创建数据集不是学校里教的东西,对于那些花了数年时间研究算法的工程师来说,专注于arXiv中最花哨的模型是很容易的。但如果希望人工智能能够解决自己的现实需求,我们需要对定义模型的数据集进行深度思考,并赋予它们一定的人文色彩。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
年薪800万却完全打不上球!掘金想要处理掉他的合同堪比登天?

年薪800万却完全打不上球!掘金想要处理掉他的合同堪比登天?

稻谷与小麦
2024-05-20 22:15:52
悲剧!土木学子不堪忍受巨量画图作业,选择跳楼,年仅20岁!

悲剧!土木学子不堪忍受巨量画图作业,选择跳楼,年仅20岁!

男女那点事儿儿
2024-05-21 08:45:37
华侨大学怀孕教师遭非升即走,本人回应,网友:没有学校敢要她了

华侨大学怀孕教师遭非升即走,本人回应,网友:没有学校敢要她了

东东趣谈
2024-05-19 21:24:49
33岁森林北恋情曝光后首发声,戴5k围巾去骑马,回应和汪峰恋情!

33岁森林北恋情曝光后首发声,戴5k围巾去骑马,回应和汪峰恋情!

娱圈小愚
2024-05-20 09:50:55
克罗地亚欧洲杯大名单:38岁莫德里奇领衔,佩里西奇、格瓦在列

克罗地亚欧洲杯大名单:38岁莫德里奇领衔,佩里西奇、格瓦在列

直播吧
2024-05-20 18:20:17
几十年前,人人肚子里几乎都有蛔虫,为何现在很少听说过了?

几十年前,人人肚子里几乎都有蛔虫,为何现在很少听说过了?

史说历史
2024-04-29 15:35:53
深夜刷进董宇辉直播间,我泣不成声:如果你也有一个“慢小孩”

深夜刷进董宇辉直播间,我泣不成声:如果你也有一个“慢小孩”

男孩派
2024-05-19 12:00:33
就在刚刚,中方正式下达“逐客令”,要求这国4天内必须离华!

就在刚刚,中方正式下达“逐客令”,要求这国4天内必须离华!

小乐讲故事
2023-05-17 09:52:08
中国行政区划史上的“烂尾工程”,省管县级市

中国行政区划史上的“烂尾工程”,省管县级市

我是娱有理
2024-05-21 07:19:16
中国超35%人血脂异常!2024指南:每半年一次降脂药将“坏胆固醇”降低60%……

中国超35%人血脂异常!2024指南:每半年一次降脂药将“坏胆固醇”降低60%……

医学新视点
2024-05-18 17:49:43
24小时空袭3大后方枢纽,俄军当着北约的面,精确轰炸乌军纵深

24小时空袭3大后方枢纽,俄军当着北约的面,精确轰炸乌军纵深

秦蓁
2024-05-21 10:45:02
郭有才的榜上前三,究竟是什么人?

郭有才的榜上前三,究竟是什么人?

呆萌的叶子
2024-05-15 20:04:45
德国媒体的披露,让我们才意识到,中国发展到让西方叹服的地步

德国媒体的披露,让我们才意识到,中国发展到让西方叹服的地步

天下事田上知
2024-05-21 10:50:32
三元里清完电动车,共享单车凌晨就位!剥夺路权后会再禁呼吸权?

三元里清完电动车,共享单车凌晨就位!剥夺路权后会再禁呼吸权?

妮子说美食
2024-05-21 07:00:16
中国购物中心新排名top10:太古里第8,环球港第4,SKP挤进前三!

中国购物中心新排名top10:太古里第8,环球港第4,SKP挤进前三!

匹夫来搞笑
2024-05-20 20:20:13
看了陈婉珍,再看朱玲玲,我发现:有富贵相的女人,都有3个特征

看了陈婉珍,再看朱玲玲,我发现:有富贵相的女人,都有3个特征

白宸侃片
2024-05-20 16:26:33
立场暴露!说大陆是“你们国家”,直播带货被抵制

立场暴露!说大陆是“你们国家”,直播带货被抵制

寒月国际
2024-05-20 14:04:53
13中8砍26分,季后赛却被一直弃用,回勇士吧,科尔有你的说明书

13中8砍26分,季后赛却被一直弃用,回勇士吧,科尔有你的说明书

林子说事
2024-05-20 20:33:47
曝博塔斯已找到新东家将取代萨金特的位置 周冠宇将何去何从?

曝博塔斯已找到新东家将取代萨金特的位置 周冠宇将何去何从?

祝晓塬
2024-05-21 11:04:12
王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

王健林还清6000亿债务后终于现身!却与往日精神模样判若两人!

柠檬有娱乐
2024-05-18 09:56:07
2024-05-21 11:52:49
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

理想业绩下滑:纯电车跳票 好日子告一段落

头条要闻

环球:赖清德讲话十分危险 "以武谋独"的野心若隐若现

头条要闻

环球:赖清德讲话十分危险 "以武谋独"的野心若隐若现

体育要闻

8年半,讲不出再见

娱乐要闻

杨洋乔欣聊天记录曝光!还牵扯张天爱

财经要闻

重营销轻研发 “扫地茅”股价已跌去78%

汽车要闻

四排八座纯电MPV/续航超过800km 翼真L380开启预订

态度原创

旅游
家居
本地
游戏
公开课

旅游要闻

四川广元男子拍到会呼吸的泉水 反复涌出又消失

家居要闻

生活蜕变 简约理念雕刻理想居所

本地新闻

强制措施展铁腕 “交叉执行”勇亮剑

《DNF》手游登顶苹果应用商店!超越《王者荣耀》

公开课

近视只是视力差?小心并发症

无障碍浏览 进入关怀版