网易首页 > 网易号 > 正文 申请入驻

谷歌又来造福AI学者了:数据增强也能自动化!

0
分享至

深度神经网络是非常强大的机器学习系统,近年来在计算机视觉领域更是取得了极大的成功。不过,它的威力得以发挥,很大程度上要归功于庞大的有标注的训练数据集。一般来说,只要增加数据集中数据的数量、质量和多样性,就可以改善模型的效果。

然而,收集数目庞大的高质量数据在实践中极其耗费时间精力,并不总是可行的。解决该问题的一种方法就是将图像的对称性硬编码到模型结构中,例如卷积神经网络。但这种方式的难度较大。另一种方法就是进行数据增强。

数据增强是一种通过随机“强化”数据来增加数据的数量和差异性的策略。我们知道,神经网络在最开始并不是智能的,需要在不断学习中逐渐完善。

图丨对 ImageNet 中的图片进行数据增强。左侧为原图,右侧为处理后的图片。上图:对图片进行数据增强的常用操作中心旋转

举例来说,假如我们想要训练可以识别狗狗图片的神经网络模型,在未经训练的情况下,网络模型无法判别出黑狗、白狗、花狗、正立的狗、四肢朝天的狗、侧躺的狗都属于同一类别。我们需要为模型提供相应的例子进行训练,但是数据集中可能并不能囊括狗各种颜色,各种形态的图片。

在这种情况下,如果对训练图片进行简单的变化,把站立的狗翻转、旋转,改变狗的颜色,我们就拥有了多张可以用于训练的图片,神经网络可以在这些丰富的样例中发现数据中的不变性,把握狗这一类别的特点。这个通过对数据集中图片进行变换处理得到更多样例的过程,就是数据增强。它在不引入更多样例的情况下对数据集进行了扩充,训练后可以提高模型的泛化能力。

图丨通过 AutoAugment 选择的策略对图像进行数据增强操作

以往的数据增强方式往往由计算机科学家手动设计,这需要许多额外的知识。此外,这些方法往往只对某一个数据集适用,无法迁移到其他数据集上。比如说,在 CIFAR-10 和 ImageNet 这类自然图像数据集上,对图片进行随机裁剪,图像镜像和色彩漂移/白化等是更适合的数据增强策略,但这些方式却不适用于 MNIST(一个手写数字数据集)。

一直以来,计算机视觉和机器学习领域的研究重点往往是设计出更好的网络模型,却未在寻找更好的数据增强方式,纳入更多数据的不变性上付出更多努力。而最近,对自动学习数据增强方式的需求逐渐上升。

Google AI 最近提出了简单的,自动找到适合数据集的数据增强方式的方法 AutoAugment,其灵感来自于最近体系结构搜索领域取得的进展。通过这种方法选择出的数据增强策略不仅在 ImageNet、CIFAR-10, CIFAR-100 和 SVHN 等多个数据集上刷新了准确率,而且可以在不使用无标签数据的情况下取得与半监督学习相当的效果。此外,适用于一个数据集的策略也可以应用于其他相似的数据集。

图| 在 SVHN( street view of house numbers)数据集上通过 AutoAugment 得到的一种数据增强策略以及其增强效果

该算法将选择最好的增强策略问题视为离散搜索问题。在研究者建立的搜索空间中,每个策略包含 5 个子策略,每个子策略包含 2 个图像处理操作。每个操作由两个参数决定:执行该操作的概率以及操作的程度度量。例如,中心旋转 90 度就是一个基本的图像处理操作。

搜索空间中的图像处理操作共计 16 种。它们主要来自常用的 python 图像处理库 PIL。研究者考虑了该库中所有以图片作为输入和输出的函数。除此之外,他们还选择了另外两种极富前景的数据增强技术:Cutout 和 SamplePairing。为了进行离散搜索,实验中将执行每种操作的概率离散化为 11 个值,将每种操作的度量离散化为 10 个值。每个子策略包含两个参数,故每个子策略的选择就是在 (16*11*10)^2 种可能性中搜索。而每个策略包含 5 个子策略,就是在包含 (16*11*10)^10 种可能性的空间中进行搜索。

图丨 搜索空间中的图像变换操作以及度量取值范围

研究者选择强化学习作为搜索算法。它由两部分组成:第一部分是由 RNN(递归神经网络)组成的控制器,第二部分是使用近端策略优化算法的训练算法。训练中的每一步,控制器通过 softmax 函数选择一个策略,然后将其嵌入到下一步。控制器通过奖励信号进行训练,即该策略在改善子模型(搜索模型的一部分,被训练的神经网络)上的效果。研究者指出,强化学习并不是搜索算法唯一的选择。选择遗传编程等作为搜索算法可能会提高整个算法的效果。

在实验中,神经网络模型利用选定的增强方式增强过的训练集进行训练,即对最小批量数据中的每一个样例随机使用五种策略中的一种进行处理。接下来通过一个验证集来检验模型的准确度,这个准确度再作为奖励信号用于控制器的训练。通过这样的过程选择出 5 个最佳策略组成一个包含 25 个子策略的最终的增强策略,在各个数据集上应用。

在 CIFAR-10 数据集上,利用 AutoAugment 算法自动获得的增强策略,该数据集上的错误率下降到了 1.48%,比之前的最好结果下降了 0.65%。训练的过程中研究者也发现,在给定的训练时间内,使用少量数据多轮训练比增加数据量减少迭代次数的效果更好。

图| CIFAR-10(上图)和 CIFAR-100(下图)数据集上不同模型配合不同数据增强方式的错误率,数值越低模型效果越好

在 Image 数据集上,利用该算法得到的增强策略,Top1 准确率达到了 83.54%。

图| ImageNet 数据集上上利用 AutoAugment 搜索到的一种增强策略,以及其增强效果

数据增强无疑是扩充数据集、改善模型效果简单而有效的方法。不仅是计算视觉,在其他深度学习广泛应用的领域,它也应该得到足够的关注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
耿彦波留给大同的这块警示碑再引关注:华严寺综治犯三错,明耻彰过

耿彦波留给大同的这块警示碑再引关注:华严寺综治犯三错,明耻彰过

澎湃新闻
2024-04-24 14:56:28
基努·里维斯:帅到令人发指,59岁才结婚,新娘比他小5岁满头白发

基努·里维斯:帅到令人发指,59岁才结婚,新娘比他小5岁满头白发

毒舌小红帽
2024-04-23 19:12:55
大使馆:入澳籍仍可享受中国退休待遇!养老金照领,可在线申请

大使馆:入澳籍仍可享受中国退休待遇!养老金照领,可在线申请

澳洲红领巾
2024-04-12 14:55:07
抢先看 支付宝大楼换上新Logo:无比简洁

抢先看 支付宝大楼换上新Logo:无比简洁

搞笑的阿万
2024-04-24 08:05:00
做擦边直播月入2万,主业月入5000的女律师,是2017年县文科状元

做擦边直播月入2万,主业月入5000的女律师,是2017年县文科状元

汉史趣闻
2024-04-23 21:44:46
20位省级政府“一把手”的特别身份

20位省级政府“一把手”的特别身份

政知新媒体
2024-04-24 16:01:25
左小青挺漂亮的,成熟又魅力

左小青挺漂亮的,成熟又魅力

娱乐圈酸柠檬
2024-04-24 16:15:42
这一细节首次披露!二十大后首个落马的正部级,有新消息

这一细节首次披露!二十大后首个落马的正部级,有新消息

政知新媒体
2024-04-24 15:02:49
中国学者连续论“俄罗斯必败”!中国该如何做正确的事?

中国学者连续论“俄罗斯必败”!中国该如何做正确的事?

丰慢慢
2024-04-23 16:00:10
作秀?纪云浩副书记在认真工作的照片,连电脑都没开双手却在打字

作秀?纪云浩副书记在认真工作的照片,连电脑都没开双手却在打字

飞哥AI矩阵
2024-04-24 13:50:14
据说吓死过人,国产恐怖片巅峰之作

据说吓死过人,国产恐怖片巅峰之作

剧透电影
2024-04-15 17:54:16
网红“一条小团团”被抓,别给她喊冤了,四川监狱发声,她并不冤

网红“一条小团团”被抓,别给她喊冤了,四川监狱发声,她并不冤

辣条小剧场
2024-04-24 00:27:25
南京一市民骑自行车没牌照被罚50元,当事人:罚款已退还,正走撤销处罚流程

南京一市民骑自行车没牌照被罚50元,当事人:罚款已退还,正走撤销处罚流程

极目新闻
2024-04-24 14:35:35
重庆这件事,已经不是践踏公平的问题了

重庆这件事,已经不是践踏公平的问题了

顾礼先生
2024-04-22 15:51:11
开始“反转”了!ASML公司正式宣布,外媒:结局清晰了

开始“反转”了!ASML公司正式宣布,外媒:结局清晰了

大卫聊科技
2024-04-23 22:30:03
150年前,一个英国人进入广州,拍下30张罕见老照片

150年前,一个英国人进入广州,拍下30张罕见老照片

图馆
2024-04-23 16:51:40
内蒙古开鲁县“开门招商”,不能拿法律和承诺当儿戏

内蒙古开鲁县“开门招商”,不能拿法律和承诺当儿戏

记录刘杰
2024-04-24 20:03:59
台积电在美国惨败!军事化管理惹当地工人不满:地球上最烂的工作场所

台积电在美国惨败!军事化管理惹当地工人不满:地球上最烂的工作场所

西游日记
2024-04-24 16:11:26
质疑天然气费用被反诈约谈,全方位的权力任性有多可怕

质疑天然气费用被反诈约谈,全方位的权力任性有多可怕

陶舜财经
2024-04-24 12:24:45
医生维权受阻,给李文亮留言:最近被派出所传唤两次,有人威胁我进笼子坐老虎凳

医生维权受阻,给李文亮留言:最近被派出所传唤两次,有人威胁我进笼子坐老虎凳

小萝卜丝
2024-04-24 19:23:32
2024-04-24 20:30:44
DeepTech深科技
DeepTech深科技
麻省理工科技评论独家合作
13759文章数 511300关注度
往期回顾 全部

科技要闻

特斯拉被爆大量毁约应届生 友商"在线抢人"

头条要闻

去年中纪委打掉的3个"正部" 1个被公诉、2个移送检方

头条要闻

去年中纪委打掉的3个"正部" 1个被公诉、2个移送检方

体育要闻

足智多谋的哈姆,温水里的青蛙

娱乐要闻

方媛带两女儿参加婚礼,当花童超可爱

财经要闻

居民气价确实在涨,多地正普遍发生

汽车要闻

续航708公里 极狐阿尔法S5展前现身

态度原创

本地
亲子
手机
公开课
军事航空

本地新闻

荒野求生贝爷都得靠边站,真求生还得看留子

亲子要闻

有子宫肌瘤有生育计划想做消融治疗! 有子宫肌瘤有生育计划想做消融治疗!

手机要闻

2499 元,水月雨 MIAD 01 全网通 5G HiFi 手机发布

公开课

睡前进食会让你发胖吗?

军事要闻

时隔5年土耳其或首部署俄制防空系统

无障碍浏览 进入关怀版