网易首页 > 网易号 > 正文 申请入驻

吴恩达新书《Machine Learning Yearning》中7个实用建议

0
分享至

大数据文摘转载自数据派THU

作者:Dan Clark, KDnuggets

编译:顾佳妮、丁楠雅

本文为你介绍吴恩达新书中的7个使用建议,致力于讲明白机器学习算法是怎样工作的,以及如何构建一个机器学习项目。

《Machine Learning Yearning》是人工智能和深度学习界的专家吴恩达写的一本书,这本书致力于讲明白机器学习算法是怎样工作的,以及如何构建一个机器学习项目。这里我们选取了这本书中7个非常有用的建议向大家介绍。

人工智能、机器学习和深度学习这些概念在飞速发展同时促使着工业界发生转变。吴恩达是这个领域的领军人物之一,他是Coursera联合创始人,百度人工智能团队的前负责人,以及谷歌大脑的前负责人。

他正在写一本叫做《Machine Learning Yearning》的书来教大家怎样构建一个机器学习项目(网上可以得到免费的初稿)。

吴恩达在书中写道:这本书不在于教你机器学习算法,而是教你怎样使用机器学习算法。有些人工智能培训班会交给你一个工具,而这本书教你的是怎样使用这个工具。如果你想成为人工智能行业中的技术领袖,然后为自己的团队设定目标的话,这本书会给予你帮助。

我们读了初稿,然后从中选取了7个最有趣实用的建议:

优化指标和满意度指标

在评估一个算法时,你应该考虑使用多个衡量指标,而不是采用一个单一的公式。其中一个方法是同时使用优化指标和满意度指标。

通过上面表格中的例子,我们先预设一个可以接受的执行时间比如小于100毫秒,这个执行时间的衡量标准就可以作为我们的满意度指标。分类器的执行时间只要在这个标准下就可以了。在这里准确率是一个优化的指标,这是一个评价算法的非常有效又简便的衡量手段。

尽快选定项目需要的验证集或测试集:不要害怕后期是否需要替换

吴恩达表示当开始构建一个新项目时,他会尽快确定验证集或测试集来给团队一个定义明确的目标。起先会设定一个为期一周的目标,这个时候最好能够尽快想出方案然后推动项目往下进行,就算想出的方案不是那么完善也比顾虑太多要好。

话虽如此,要是你突然意识到一开始的验证集或测试集是错的,不要害怕去改正它。以下三个原因可能造成选出不正确的验证集:

  • 真正要解决的问题的数据分布和验证集的分布大不相同。

  • 验证集过拟合。

  • 选择的衡量标准并不是这个项目真正想要的优化目标。

要记住做出变更并不是什么大问题,只要往下继续并让你的团队知道当下新的目标是什么就可以了。

机器学习是一个迭代优化的过程:不要指望它一开始就能起作用

吴恩达说他做一个机器学习项目包括三个步骤:

  • 从产生一个想法开始。

  • 用代码实现这个想法。

  • 做实验判断这个想法如何。

这个循环走得越快,项目的进展就越快。这也说明了为什么在一开始确定好验证集是非常重要的,因为这样可以在迭代优化过程中省下很多时间。衡量数据集上的表现也可以让你迅速知道项目是否在一个正确的方向上。

快速开发第一个系统然后迭代

正如第3点中所说,构建机器学习算法是一个迭代的过程。在吴恩达的书里有一章节的篇幅说明快速开发一个系统的好处:“不要试图一开始就去设计和开发出一个完美的系统,而是应该在几天内迅速发开训练一个基本的系统。

就算这个初步的系统离你可以发开的最好版本还差得很远,检验这个基本系统的功能也是很有价值的,这样你可以迅速找到证据来确定值得你投入时间的最有保障的发展方向。

并行地评估多个想法

当团队对改进一个算法有很多想法时,你可以并行地高效评估这些主意。这里用识别猫咪图像的算法来举例,吴恩达介绍说当他想要过目100个被错误分类的验证集图片的时候,他会用一个电子表来记录然后一边检查一边填写。

上表中包括了每一张图片为什么会被分错类,还有额外注释便于日后的回顾。当完成这个表的时候,你就能获知哪些想法可以消除更多的误差,哪些想法应该被追踪。

考虑是否要修正错误标注的测试集

当你进行误差分析时,有可能会注意到验证集的某些样本是被错误标注的,例如图片在人工标注时被打上了错误的标签。如果你怀疑其中一部分误差是由这些错误标注造成,那可以在刚才提到的电子表格中多加一个类别。

当表格快完成的时候,就可以考虑这些错误标注是否值得花时间修复了。书中给出了两个可能的场景来帮助我们判断这些错误是否值得修复。

  • 例1:

测试集上总体正确率……90%
(10%的总体错误率)
由于标错的样本造成的错误率…… 0.6%
(6%的测试集错误率)
由于其他原因造成的错误率……9.4%
(94%的测试集错误率)

“在数据集中,相比于9.4%可以改进的错误率,由于错误标注导致的0.6%的错误率是无足轻重的。当然修正这个错误标注没有什么坏处,但是也没有必要做。你的系统整体错误率是10%还是9.4%都是可接受的。“

  • 例2:

测试集上总体正确率…… 98%
(2%的总体错误率)
由于标错的样本造成的错误率……0.6%
(30%的测试集错误率)
由于其他原因造成的错误率……1.4%
(70%的测试集错误率)

“验证集上30%的错误是由于误标注造成的,已经对准确率的评估增加了极大比重的错误。这个时候就值得来改善测试集的标签质量了。

处理好错误标注的样本可以帮你解决分类器的错误率是1.4%还是2%的问题,相对来说这两者有巨大不同。“

考虑把验证集分成小的子集

如果你在一个较大的验证集上有20%的错误率,那么值得把这个验证集分成两个子集:

举一个算法在5000个验证集上分错1000个样本的例子。假设我们想要人工检查100个错误样本(10%的错误样本)对其进行错误分析,那么应该从验证集中随机抽取10%然后放到一边,暂时称它为“引人关注的验证集”来提醒我们要看一下这部分验证集(在语音识别项目中,你需要听一下录音片段,这个时候可能将划出来的验证集称为引人关注的验证集)。这个需要关注的验证集中有500个样本,我们可以预期算法会在其中分错100个左右。

验证集的第二个子集叫做黑箱验证集,里面剩有4500个样本。可以用黑箱验证集中样本的的错误率来自动评估分类器的效果。

可以用这个测试集来选算法或者调参数。而然,需要注意的是你应该避免具体去看这些样本。我们之所以使用黑箱这个词是因为我们只需要用这部分子集来评价分类器即可。

References

[1]Don’t learn Machine Learning in 24 hours

https://www.kdnuggets.com/2018/04/dont-learn-machine-learning-24-hours.html

[2]A Basic Recipe for Machine Learning

https://www.kdnuggets.com/2018/02/basic-recipe-machine-learning.html

[3]10 Free Must-Read Books for Machine Learning and Data Science

https://www.kdnuggets.com/2017/04/10-free-must-read-books-machine-learning-data-science.html

相关报道:

https://www.kdnuggets.com/2018/05/7-useful-suggestions-machine-learning-yearning.html

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
易中天:流氓的五大特征

易中天:流氓的五大特征

尚曦读史
2024-04-03 08:58:55
史上最贵LV外卖袋火了!网友:巴黎世家都没你疯……

史上最贵LV外卖袋火了!网友:巴黎世家都没你疯……

InsDaily
2024-04-24 12:37:10
洪秀柱参访佛山再谈两岸交流:力量在民间,面对干扰无所畏惧

洪秀柱参访佛山再谈两岸交流:力量在民间,面对干扰无所畏惧

南方都市报
2024-04-25 11:09:50
摩根:阿森纳血虐蓝军让所有曼城球迷胆寒,建议今后取消伦敦德比

摩根:阿森纳血虐蓝军让所有曼城球迷胆寒,建议今后取消伦敦德比

直播吧
2024-04-25 11:50:29
不承认!慢动作回放孙颖莎擦边球,国际乒联力挺,裁判看走眼了

不承认!慢动作回放孙颖莎擦边球,国际乒联力挺,裁判看走眼了

开心体育站
2024-04-24 11:50:24
山东一“色贪”落马:栽在美色手里!

山东一“色贪”落马:栽在美色手里!

天闻地知
2024-04-25 09:34:54
电视莫名其妙的倒过来了,真的要被评论区的人才笑翻了

电视莫名其妙的倒过来了,真的要被评论区的人才笑翻了

今日搞笑分享
2024-04-24 20:38:55
黄埔四期,知名将领数量仅次于一期,走出4位军事家

黄埔四期,知名将领数量仅次于一期,走出4位军事家

兵说
2024-04-24 11:29:28
逆境拉胯!塔图姆20投28分不敌热火,名记直呼:哪里像科比?

逆境拉胯!塔图姆20投28分不敌热火,名记直呼:哪里像科比?

天涯沦落人
2024-04-25 09:54:42
雷军现场发布求贤令:诚邀天下英才

雷军现场发布求贤令:诚邀天下英才

鞭牛士
2024-04-25 09:52:11
输球输人!联盟将介入调查詹姆斯,季后赛首笔处罚将诞生

输球输人!联盟将介入调查詹姆斯,季后赛首笔处罚将诞生

曼巴篮球one
2024-04-24 21:37:28
假期前,换届中未连任省委常委的“老虎”,被点名了

假期前,换届中未连任省委常委的“老虎”,被点名了

政知新媒体
2024-04-24 17:52:08
2-0改写4队命运!争冠大变:利物浦退出,曼城不胜将看阿森纳夺冠

2-0改写4队命运!争冠大变:利物浦退出,曼城不胜将看阿森纳夺冠

体育知多少
2024-04-25 06:23:30
李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

李鹏总理的6位家人:3位子女都是国家栋梁,如今都官至何位?

小啾咪侃侃史
2024-04-19 09:58:17
为什么出现国家越强大,老百姓却越累越穷呢?背后逻辑是什么?

为什么出现国家越强大,老百姓却越累越穷呢?背后逻辑是什么?

翻开历史和现实
2024-04-24 09:44:21
“农心杯被串烧是耻辱”,常昊要求围棋国手严守纪律底线

“农心杯被串烧是耻辱”,常昊要求围棋国手严守纪律底线

澎湃新闻
2024-04-24 16:18:30
东南亚高铁项目,大家曾经挤破头争抢,如今却变成互相"谦让"!

东南亚高铁项目,大家曾经挤破头争抢,如今却变成互相"谦让"!

娱乐小可爱蛙
2024-04-25 07:37:49
美国国务卿布林肯抵达上海纽约大学,与师生交流

美国国务卿布林肯抵达上海纽约大学,与师生交流

澎湃新闻
2024-04-25 10:42:26
吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

吴亦凡有没有后悔没有给都美竹索要的800万,如果最初给了800万是不是就不会发生后面的事?

阿芒娱乐说
2024-04-24 07:55:26
周琦禁赛新进展:广东男篮深夜表态,5次错判吹蒙徐杰,杜锋摊牌

周琦禁赛新进展:广东男篮深夜表态,5次错判吹蒙徐杰,杜锋摊牌

体育咆哮君
2024-04-24 12:30:31
2024-04-25 14:14:44
大数据文摘
大数据文摘
专注大数据,每日有分享!
6200文章数 94250关注度
往期回顾 全部

科技要闻

雷军:希望小米SU7能成为苹果用户购车首选

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

头条要闻

男子被上门女技师触摸隐私部位要求"加钟" 平台回应

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

先涨价再降价,特斯拉“打脸”只用20天?

汽车要闻

这灯效我能看半小时 奥迪Q6L e-tron有备而来

态度原创

教育
艺术
房产
本地
手机

教育要闻

新航道2023年春季班火热报名中...欢迎资讯当地新航道学校~

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

房产要闻

涉及黄埔、番禺、增城!广州新一轮大规模征地启动

本地新闻

荒野求生贝爷都得靠边站,真求生还得看留子

手机要闻

中邮通信 Hi nova 12 SE 手机发布,2199 元起

无障碍浏览 进入关怀版