网易首页 > 网易号 > 正文 申请入驻

为什么说“无监督学习”才是深度学习的未来?

0
分享至

【网易智能 7月23日消息】我们已经在之前的一篇文章中探讨了神经网络和深度学习技术,现在是时候讨论深度学习的另一个主要组成部分了:数据,即图像,视频,电子邮件,驾驶模式,短语,物体等等。

令人惊讶的是,尽管我们的世界几乎被数据所淹没,但很大一部分是未经标注未被整理过的,这意味着这些数据对于大多数目前的监督式学习来说是不可用的。

而深度学习尤其依赖于大量良好的、结构化的、有标签的数据。在我们“神经网络非数理化指南”的第二部分中,我们将研究为什么高质量的、标记过的数据如此重要,它来自哪里,如何使用,以及近期会有什么样的解决方案可以提供给我们制造的那些渴望学习的机器。

监督学习:让我握住你的手

在关于神经网络的文章中,我们曾解释了如何通过精心制作的“香肠印刷机”(sausage

press)将数据输入给机器,这些印刷机能够快速进行剖析、分析甚至自我精炼。

这一过程被认为是监督式学习,因为大量的数据被输入到机器中,这些数据被事先煞费苦心地贴上了标签。例如,要训练一个神经网络来识别苹果或橙子的图片,就需要给这些图片贴上标签。机器可以通过识别所有被标记为苹果或橙色的图片来理解数据,这些图片有共同之处,因此机器最终可以利用这些已识别的图片来更准确地预测新图像中所出现的内容。他们看到的标记数据越多,看到的数据集越大,就能更好地增进他们预测的准确性。

这种方法在教机器学习视觉数据时很有用,还可以教机器如何识别从照片、视频到图形和书写在内的东西。一个明显的优势是,在许多应用程序中,机器在图像识别上做得甚至比人类还好。

比如,Facebook的深度学习软件能够将一张陌生人的两张照片进行匹配,其准确性与人类相当(实际上97%的情况下要好于人类),而谷歌在今年早些时候推出了一种可以从医学影像中探测肿瘤的神经网络,它的准确性甚至高于医师。

无监督学习:不需要监护人指导就得出结论

如你所预期,与监督式学习相对应的是无监督学习。这是指你松开系在机器上的皮带,让它潜入数据中,自主地进行发现和体验,寻找模式和联系,并得出结论,而不需要监护人的指导。这项技术长期以来一直被一部分人工智能科学家们所批评,但在2012年,谷歌展示了一个深度学习网络,能够从一大堆没有标记过的图片中破译猫、人脸和其他物体。这项技术令人印象深刻,并带来了一些极为有趣和有用的结果,但是,到目前为止,在任何方面无人监督学习都达不到监督学习的准确性和有效性。

无处不在的数据

这两种方式的差异使我们进入了对一个更大、令人困惑的话题的探讨。把这些机器比作人类婴儿很有用。我们知道,只要让我们的孩子放松,没有指导他也会学习,但他学到的不一定是我们想要他学的东西,学习的方式也无法预测。

但是,既然我们也通过教育来教孩子,那么我们就需要通过客观上无穷多的话题使孩子暴露于大量物体和概念之中,我们需要教给孩子方向,动物和植物,重力和其他物理属性,阅读和语言,食物类型和元素等。事实上是所有存在的事物。随着时间推移,所有这些几乎都可以通过展示和讲述活动以及回答年轻人无穷多得问题而被解释。这些问题都是由任何好奇的年轻人提出的。

这是一项浩大的工程,但所有父母和普通孩子身边的人每天都在做着这样的事情。神经网络有同样的需求,但它的关注点通常更狭窄,我们也不太会与它进行社交,所以标签需要更加精确。

目前,人工智能研究人员和科学家可以采取很多方法来获取数据,以训练他们的机器。第一种方法是走出去,自己收集大量的标签数据。谷歌、亚马逊、百度、苹果、微软和Facebook等公司的情况都是如此,有意思的事,这些企业都拥有令人惊叹的海量数据——其中大部分都是由客户免费提供的。如果想把所有这些数据都列出来,那就太愚蠢了;但应该考虑一下上传到这些公司数据库云存储上的数十亿条标记过的图片。

然后想想所有的文档,通过语音、文本、照片和光学字符识别进行的搜索查询,位置数据和地图,评级、赞和分享,购物信息,快递地址,电话号码和联系方式,地址簿和社交网络。拥有这些资源的公司——以及任何规模庞大的公司——往往在机器学习中拥有独特的优势,因为它们拥有丰富的特定类型的数据

数据带来的困难

如果你碰巧没有拥有一家拥有海量数据的财富100强公司,那么你就应该知道如何与他人分享。获取大量多样化数据是人工智能研究的一个关键部分。幸运的是,现在已经有大量免费和公开的标签数据集,涵盖了各种各样不同的类别。根据你所想,你可以找到显示从人类面部表情和手语到公众人物脸型和肤色的各种数据集。

你还可以找到数以百万计的关于人群、森林和宠物的图片,这包括所有宠物的照片;你也可以通过筛选大量的用户和顾客评论来获得相关信息。此外,还有一些数据集,包括垃圾邮件、多种语言的推文、博客帖子和法律案例报告。

新的数据类型来自于世界上越来越多、无处不在的传感器,比如医疗传感器、运动传感器、智能设备的陀螺仪、热传感器等等。还有就是人们给他们吃的食物、葡萄酒标签和讽刺性标语等拍的照片。

问题在哪里呢?

尽管数据是如此之多,但事实证明许多数据都不是那么有用。要么是它们太小了,要么是不太好,要么是只有部分被贴上标签,或者标签贴的不合适,总之他们就是无法满足你的需求。例如,如果你希望教会一台机器识别图像中的星巴克标志,你可能只能找到一个用来训练的图片数据库,该数据库可能被打上了“饮料”、“饮品”、“咖啡”、“容器”或人名“乔”,没有正确的标签,它们就没有用处。

一般的律师事务所或老牌公司在其数据库中可能会有数百万份合同或其他文书,但这些数据无法被使用,因为它们可能是被简单地以未打过标签的PDF格式保存的。在获得最优数据方面的另一个挑战是确保所使用的训练数据集数量够大,并且是多样化的。

另外,在训练一个复杂的模型,如深度神经网络时,使用小数据集可能会导致所谓的过度拟合,这是机器学习中一个常见的问题。实际上,过度拟合是由于大量可学习参数与训练样本有关联导致的,这样的参数充当了“神经元”,我们在之前通过反向传播对其进行了全面的调整。结果可以是一个能够记住这些训练数据的模型,而不是从数据中学习一般概念的模型。

回想一下我们的苹果-桔子网络。因为作为训练数据的苹果图像很少,而神经网络却很庞大,我们很可能会让网络在特定细节上进行仔细的研究——红色、棕茎,圆形,这些细节需要在训练数据之间被准确地区别化。这些微小的细节可能会很好地描述训练苹果的图片,但当测试中机器被要求识别一个新的苹果时,这些细节可能就被证明是无关紧要,甚至是不正确的,因为在测试的时候,可能会有一个新的、机器之前未见过的苹果。

另一个重要的原则就是数据的多样性,从统计学上来说,你所积累的数据越独特,你的数据就越有可能更加多样化。

在“苹果-桔子”的例子中,我们希望机器能有合理的概括能力,这样它就能识别所有苹果和桔子的图像,不管这些苹果桔子是否出现在训练集中。

毕竟,并不是所有的苹果都是红色的,如果我们只在红色苹果的图片上训练我们的网络,很有可能在测试时它是无法识别出绿色苹果的。因此,如果在培训中使用的数据类型是不全面的,无法囊括测试中所有的可能性,那么就会出现这样的问题。在很多人工智能领域,以偏概全的问题已经开始出现。神经网络和用来训练它们的数据集反映了其制造者人群中的偏见。再一次,如果只用红苹果来训练我们的苹果-橘子网络,我们可能会让机器具有偏见,认为苹果只能是红色的。

如果类推到其他应用之中,比如面部识别,那么不全面数据带来的影响就会变得非常明显,就像老话说的那样:“进来的是垃圾,出去的还是垃圾”

制造一个可以独立思考的捕鼠器

缺少人力去标记数据是一个问题,这很昂贵。或者如果世界上的所有公司都忽然统一开放他们的数据资源,并心甘情愿地将其提供给全球的科学家,这样一来缺乏好的训练数据一事就不复存在了。

与其朝着获得尽可能多的数据这一目标努力,深度学习的未来可能会是朝着无监督学习技术这一方向发展。

如果我们想一想我们是如何教给婴幼儿关于世界的知识时,这样的做法就是有道理的;毕竟,尽管我们确实教会了孩子很多东西,但作为人类所做的最重要的学习,是经验,这是无人监督的。

【英文来源:techcrunch 编译:网易见外智能编译平台 审校:Ecale】

责任编辑:丁广胜_NT1941

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
普京:国际恐怖主义仍是21世纪最严重安全威胁之一

普京:国际恐怖主义仍是21世纪最严重安全威胁之一

财联社
2024-04-24 22:55:11
勇士铁三角正式解散! 克莱今夏远赴湖人, 库里加盟西部新贵!

勇士铁三角正式解散! 克莱今夏远赴湖人, 库里加盟西部新贵!

欧雄谈生活
2024-04-25 05:33:21
战犯表现!波尔津吉斯今日正负值-32 队史季后赛第6低

战犯表现!波尔津吉斯今日正负值-32 队史季后赛第6低

直播吧
2024-04-25 10:56:27
北大教授成“全天女佣”:困在屎、尿里,撕开了4400多万人的伤疤

北大教授成“全天女佣”:困在屎、尿里,撕开了4400多万人的伤疤

石辰搞笑日常
2024-04-25 06:57:57
售后背锅!华为放大镜定损惹争议,1毫米划痕都不让保修

售后背锅!华为放大镜定损惹争议,1毫米划痕都不让保修

映射生活的身影
2024-04-25 03:19:53
NBA官宣年度奖项:里德当选最佳第六人 击败蒙克波蒂斯成功捧杯

NBA官宣年度奖项:里德当选最佳第六人 击败蒙克波蒂斯成功捧杯

罗说NBA
2024-04-25 06:36:38
张康阳豪气!夺冠奖励升级:国米每人一块金表,自掏腰包真有钱

张康阳豪气!夺冠奖励升级:国米每人一块金表,自掏腰包真有钱

梦与体育
2024-04-25 14:53:14
线上讨薪!郭艾伦喊话贾跃亭:贾总我的150万什么时候结一下

线上讨薪!郭艾伦喊话贾跃亭:贾总我的150万什么时候结一下

懂球帝
2024-04-25 08:27:11
乌克兰称S-500是对爱国者防空系统“拙劣”模仿,落后至少四十年

乌克兰称S-500是对爱国者防空系统“拙劣”模仿,落后至少四十年

探索星空
2024-04-25 10:46:52
你错过了多少异性给你的暗示?

你错过了多少异性给你的暗示?

户外阿崭
2024-04-08 07:35:07
官宣!35岁周鹏宣布重要决定,球迷遗憾,赵睿送祝福

官宣!35岁周鹏宣布重要决定,球迷遗憾,赵睿送祝福

保持热爱0263
2024-04-25 13:32:28
刚刚A股曝光消息,央妈下达死命令紧急救市,行情能触底反弹?

刚刚A股曝光消息,央妈下达死命令紧急救市,行情能触底反弹?

彩云的夕阳
2024-04-25 14:02:22
重磅探长:崔永熙将报名参加今年的NBA选秀!

重磅探长:崔永熙将报名参加今年的NBA选秀!

直播吧
2024-04-25 17:10:10
嘲讽拉满!巴特勒换头杰伦布朗,晒后者言论:别让我们扳回一局

嘲讽拉满!巴特勒换头杰伦布朗,晒后者言论:别让我们扳回一局

球哥侃球
2024-04-25 11:03:54
五月份将至,上海传来了一个不太好的消息,让人为之震惊

五月份将至,上海传来了一个不太好的消息,让人为之震惊

娱乐小可爱蛙
2024-04-25 11:35:25
再见,切尔西!曝蓝军最快48小时换帅!新帅获2亿英镑“见面礼”

再见,切尔西!曝蓝军最快48小时换帅!新帅获2亿英镑“见面礼”

头狼追球
2024-04-25 15:39:32
今年上海成人展上,让我们心动的一些玩具

今年上海成人展上,让我们心动的一些玩具

BIE别的
2024-04-24 14:22:06
小杨哥的“网红”人设,彻底崩塌了!

小杨哥的“网红”人设,彻底崩塌了!

金错刀
2024-04-23 16:59:41
父亲和大伯10年不来往,那天堂哥突然打来电话,我连夜开车赶回去

父亲和大伯10年不来往,那天堂哥突然打来电话,我连夜开车赶回去

好点点
2024-04-19 19:55:21
“割韭菜”的刘彦春:基金巨亏400亿,自己竟然先开溜!

“割韭菜”的刘彦春:基金巨亏400亿,自己竟然先开溜!

财经锐眼
2024-04-24 17:07:15
2024-04-25 17:26:46
智能菌
智能菌
聚焦人工智能!
645文章数 23676关注度
往期回顾 全部

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

头条要闻

沙利文证实"美国向乌军提供远程导弹":我们将送去更多

头条要闻

沙利文证实"美国向乌军提供远程导弹":我们将送去更多

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

曙光已现?瑞银开始转而看好中国地产业

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

教育
房产
健康
艺术
公开课

教育要闻

留学生“平静的疯感”从何而来?留学生不发Vlog,竟是怕人笑话?

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

这2种水果可降低高血压死亡风险

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版