网易首页 > 网易号 > 正文 申请入驻

训练并行性:微软谷歌再放大招,开源新框架

0
分享至

全文共2669字,预计学习时长7分钟

图源:Stanford

微软和谷歌一直积极致力于开发训练深度神经网络的新模型。最近,他们发布了两个新框架:微软的PipeDream和谷歌的GPipe。

这两个框架都遵循相似的原则,来扩展深度学习模型训练,二者在各自的研究论文中都有详细介绍,今天我将尝试对其进行总结。

训练是深度学习项目生命周期中的一个领域,在模型达到一定规模前,通常认为其挑战性不高。虽然在实验过程中训练基本模型比较简单平常,但其复杂性会随着模型的质量和大小呈线性增长。

例如,2014年ImageNet视觉识别挑战的冠军是GoogleNet,精确度最高,为74.8%,拥有参数达400万。而仅仅三年之后,2017年ImageNet挑战的冠军是压缩-激发(Squeeze-and-Excitation)网络,精确度最高,为82.7%,拥有参数达1.458亿(是之前的36倍多)。然而,在同一阶段,GPU内存仅增加了约3倍。

随着模型缩放,为达到更高精确度,这些模型训练的挑战性也会随之增高。前例表明,依靠GPU基础架构的完善来实现更好的训练过程不可持续,相反,为扩展训练规模,需要能够在不同节点进行并行化训练工作量的分布式计算方法。

可并行化训练的概念可能听起来比较简单,但在实际操作中极其复杂。如果你认真思考就会发现,我们真正说的是在不同节点之间划分模型的知识获取,然后将各个部分重新组合成一个内聚模型方面的问题。

然而,为缩放深度学习模型,训练可并行化必不可少。为应对这些挑战,微软和谷歌投入了数月的研究和工程研发,最终分别发布了GPipe和PipeDream两个框架。

谷歌的Gpipe

图源:unsplash

GPipe专注于扩展深度学习计划的训练负载。从基础架构的角度来看,培训过程的复杂性是深度学习模型经常被忽视的一个方面。

训练数据集越来越大,也愈加复杂,例如,在医疗保健领域,经常遇到需要使用数百万个高分辨率图像进行训练的模型。结果,完成训练过程通常耗时很长,且由于消耗内存和CPU,耗资不菲。

思考深度学习模型的并行性的有效方法是,将其划分为数据并行性和模型并行性。数据并行性方法采用大型机器集群,将输入数据拆分到它们之间。模型并行性尝试将模型移至具有专用硬件以加速模型训练的加速器,如GPU或TPU。

从高层次上讲,几乎所有训练数据集都能按照一定的逻辑进行并行化,但关于模型的说法却不尽相同。例如,一些深度学习模型由可以独立训练的并行分支组成,在这种情况下,通常采取的策略是将计算划分为多个分区,并将不同的分区分配给不同分支。但是,该策略在按顺序堆叠各层的深度学习模型中存在缺陷,给高效并行化计算提出了挑战。

GPipe通过利用一种称为流水线的技术将数据和模型并行性结合在一起。从概念上讲,GPipe是一个分布式机器学习库,它使用同步随机梯度下降和流水线并行性进行训练,适用于由多个连续层组成的任何DNN(深度神经网络)。

GPipe在不同的加速器之间划分模型,并自动将小批量训练示例拆分为更小的微批量,该模型使GPipe的加速器可以并行运行,从而最大限度提高训练过程的可扩展性。

下图说明了GPipe模型的神经网络序列层被划分为四个加速器的过程:Fk为第k个分区的复合正向计算函数,Bk为对应的反向传播函数,Bk依赖于上层的Bk+1和Fk的中间激活函数。在模型顶部,可以看到,网络的顺序性质是如何导致资源利用率不足的。

下图显示了GPipe方法,输入的小批量被划分成可以由加速器同时处理的较小宏批量。

图源:arxiv

微软的PipeDream

图源:unsplash

几个月前,微软研究院宣布创建Project Fiddle,这是一系列旨在简化分布式深度学习的研究项目。PipeDreams是Fiddle项目发布的首个专注于深度学习模型训练并行化的项目之一。

PipeDream采用了有别于其他方法的方式——一种称为流水线并行的技术,来扩大深度学习模型的训练规模,这种方法试图解决数据和模型并行技术的一些挑战,比如在GPipe中使用的技术。

通常,在云基础架构上进行培训时,数据并行化方法在规模上会承受较高的通信成本,且随着时间推移,会提高GPU的计算速度。与此类似,模型并行化技术通常不能有效利用硬件资源,在决定如何在给定硬件部署的情况下拆分其特定模型方面,给程序员带来了不必要的负担。

图源:Microsoft

PipeDream试图通过使用称为流水线并行的技术来克服数据模型并行性方法的一些挑战。从概念上讲,流水线并行计算涉及将DNN模型的各层划分为多个阶段,其中每个阶段均由模型中的一组连续层组成。每个阶段都映射到一个单独的GPU,该GPU对该阶段中的所有层执行正向传递(和反向传递)。

对于某个特定深度神经网络,PipeDream会根据在单个GPU上执行的简短概要分析,自动决定如何对DNN的运算符进行分区,在不同阶段之间平衡计算负载,同时最小化与目标平台的通信。

即使存在模型多样性(计算和通信)和平台多样性(互连拓扑和分层带宽),PipeDream也能有效实现负载平衡。与数据模型并行性方法相比,PipeDream训练并行性方法的原理具有多个优势。

对于初学者来说,PipeDream需要在工作程序节点之间减少通信,因为管道执行中的每个工作节点只需要与梯度和输出激活的子集通信,且只与单个其他工作节点通信。此外,PipeDream以一种更容易实现并行的方式将计算和通信分离开来。

图源:Microsoft

训练并行性是构建更庞大、更精确的深度学习模型的重大挑战之一。作为深度学习社区中活跃的研究领域,训练并行方法需要结合有效的并发编程技术和深度学习模型的本质。

虽然还处于早期阶段,谷歌的GPipe和微软的PipeDream仍各有所长,是深度学习开发人员训练并行能力最富创造性的方法。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载,请后台留言,遵守转载规范

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
警车别停私家车事件后续:前方大货车司机目击全程,发声还原真相

警车别停私家车事件后续:前方大货车司机目击全程,发声还原真相

洛洛女巫
2024-05-16 15:33:20
北京周末风雨轮岗!部分道路采取临时管理措施

北京周末风雨轮岗!部分道路采取临时管理措施

BRTV新闻
2024-05-17 15:33:38
普京访华的十个细节,惊心动魄!

普京访华的十个细节,惊心动魄!

燕梳楼频道
2024-05-17 12:11:56
韦世豪双响,成都蓉城4-1广东劲旅,2连胜升至第2,上海海港怕吗

韦世豪双响,成都蓉城4-1广东劲旅,2连胜升至第2,上海海港怕吗

侧身凌空斩
2024-05-17 21:40:45
1971年,张万年突然接到领导电话:稳住师政委,千万别让他跑了

1971年,张万年突然接到领导电话:稳住师政委,千万别让他跑了

平安是福呀
2024-05-13 00:34:16
堪比加油!国轩高科发布星晨电池 5分钟充电续航350公里

堪比加油!国轩高科发布星晨电池 5分钟充电续航350公里

户外小阿隋
2024-05-17 12:05:42
毛主席目前在世的八位直系亲属,现今都有谁,过得怎么样

毛主席目前在世的八位直系亲属,现今都有谁,过得怎么样

史诗长歌
2024-05-14 15:40:02
证监会出手,20家公司被调查

证监会出手,20家公司被调查

尺度商业
2024-05-17 14:56:36
汪峰新女友和前夫昔日合照曝光,大量私人生活照公开

汪峰新女友和前夫昔日合照曝光,大量私人生活照公开

素素娱乐
2024-05-15 09:35:50
湖南市委书记落马:不嫖不赌不贪污,唯一爱好是散步,罪名却还不轻

湖南市委书记落马:不嫖不赌不贪污,唯一爱好是散步,罪名却还不轻

数局
2024-05-17 20:17:37
湖南相亲女子长相甜美,男子一眼沦陷,女子:你养得起我吗

湖南相亲女子长相甜美,男子一眼沦陷,女子:你养得起我吗

百晓史
2024-05-15 11:41:45
许可馨:国人往往将历经艰辛视为一种美德,简直是自轻自贱

许可馨:国人往往将历经艰辛视为一种美德,简直是自轻自贱

泸沽湖
2024-05-17 10:49:10
3-0!日本女排横扫德国队,取得三连胜,暂时排榜首,古贺轰20分

3-0!日本女排横扫德国队,取得三连胜,暂时排榜首,古贺轰20分

湘楚风云
2024-05-17 20:36:42
19时,张本智和摊牌发声,官宣决定,日本国乒遗憾,王楚钦祝福

19时,张本智和摊牌发声,官宣决定,日本国乒遗憾,王楚钦祝福

东球弟
2024-05-17 15:48:26
“中国已经进入一个最缺德的时代”这是危言耸听?还是故意抹黑?

“中国已经进入一个最缺德的时代”这是危言耸听?还是故意抹黑?

影孖看世界
2024-05-05 15:21:40
越南政坛第5号人物张氏梅落马

越南政坛第5号人物张氏梅落马

缅甸中文网
2024-05-17 19:23:55
特斯拉推出铁锤,限量800支,售价5000元,一抢而空

特斯拉推出铁锤,限量800支,售价5000元,一抢而空

MOTO
2024-05-17 15:04:51
LV总监空降成都,全身穿搭价值3000万,网友辣评:像农民工赶火车

LV总监空降成都,全身穿搭价值3000万,网友辣评:像农民工赶火车

动物的温情故事
2024-05-16 04:15:23
和老公异地分居,同学聚会意外跟男同学发生关系,老公会原谅吗?

和老公异地分居,同学聚会意外跟男同学发生关系,老公会原谅吗?

混音情感
2024-05-16 22:12:09
生死相争!美国对中国电车加征100%关税,中国打碎特斯拉幻想

生死相争!美国对中国电车加征100%关税,中国打碎特斯拉幻想

户外钓鱼哥阿旱
2024-05-17 16:38:10
2024-05-18 00:14:44
读芯术
读芯术
专注年轻人的AI学习平台
2097文章数 5641关注度
往期回顾 全部

科技要闻

京东拼增长,大力出奇迹

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

头条要闻

媒体:菲律宾在南海闹事时 美国航母紧急"撤"到新加坡

体育要闻

中超疯狂星期五!5场28球,单场5球起步

娱乐要闻

《庆余年2》首播口碑出炉!有好有坏

财经要闻

重磅!楼市王炸来了 多部门出手救楼市

汽车要闻

内饰与配置全新升级 全新途观L PRO将于5月30日上市

态度原创

手机
旅游
艺术
健康
公开课

手机要闻

小米澎湃OS再次公布进展通报:解决小爱建议、浏览器等多项问题!

旅游要闻

火车票改签收手续费了?12306回应

艺术要闻

真诚度101%,35岁的诚品画廊为什么选择北京?

在中国,到底哪些人在吃“伟哥”?

公开课

父亲年龄越大孩子越不聪明?

无障碍浏览 进入关怀版