网易首页 > 网易号 > 正文 申请入驻

微软和谷歌分别开源分布式深度学习框架,各自厉害在哪?

0
分享至

  

  大数据文摘出品

  来源:Medium

  编译:Miggy

  微软和谷歌一直在积极研究用于训练深度神经网络的新框架,并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。

  原则上看,他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文(PipeDream,GPipe)中进行了详细介绍,这篇文章将对此进行总结。

  先放上GitHub开源地址

  微软:

  https://github.com/msr-fiddle/pipedream

  谷歌:

  https://github.com/tensorflow/lingvo/blob/master/lingvo/core/gpipe.py

  众所周知,在实验过程中,虽然训练基本模型比较琐碎,但复杂度却随模型的质量和大小线性增加。例如,2014年ImageNet视觉识别挑战赛的冠军是GoogleNet,它通过400万个参数获得了74.8%的top1准确性,而仅仅三年之后,2017年ImageNet挑战赛的冠军就使用1.458亿个参数(多了36倍)的最新神经网络实现了top1准确率——82.7%。但是,在同一时期,GPU内存仅增加了约3倍。

  

  随着模型缩放以达到更高的准确性,对这些模型的训练变得越来越具有挑战性。前面的样本也显示了,依靠GPU基础结构的改进来实现更好的训练是不可持续的。我们需要分布式计算方法,这些方法可以并行化跨不同节点的训练工作量,以扩展训练规模。分布式训练的概念听起来很琐碎,但实际上却极其复杂。

  谷歌的GPipe

  GPipe专注于扩展深度学习计划的训练工作量。从基础架构的角度来看,训练过程的复杂性是深度学习模型经常被忽视的一个方面。训练数据集越来越大,越来越复杂。例如,在医疗保健领域,需要使用数百万个高分辨率图像进行训练的模型并不罕见。结果,训练过程通常要花费很长时间才能完成,并且内存和CPU消耗非常大。

  思考深度学习模型的分布式的有效方法是将其划分为数据分布式和模型分布式。数据分布式方法采用大型机器集群,将输入数据拆分到它们之间。模型分布式尝试将模型移至具有特定硬件的加速器,例如GPU或TPU,以加速模型训练。

  概念上看,几乎所有训练数据集都可以按照一定的逻辑进行分布式训练,但是关于模型的说法却不尽相同。例如,一些深度学习模型由可以独立训练的并行分支组成。在那种情况下,经典策略是将计算划分为多个分区,并将不同的分区分配给不同的分支。但是,这种策略在按顺序堆叠各层的深度学习模型中是不足的,

  GPipe通过利用一种称为流水线的技术将数据和模型分布式结合在一起。从概念上讲,GPipe是一个分布式机器学习库,它使用同步随机梯度下降和流水线分布式进行训练,适用于由多个连续层组成的任何DNN。

  GPipe在不同的加速器之间划分模型,并自动将一小批训练样本拆分为较小的微批。该模型允许GPipe的加速器并行运行,从而最大限度地提高了训练过程的可扩展性。

  下图说明了具有连续层的神经网络的GPipe模型在四个加速器之间分配。Fk是第k个分区的复合正向计算函数。Bk是相应的反向传播函数。Bk取决于上层的Bk + 1和Fk的中间激活。在顶级模型中,我们可以看到网络的顺序性质如何导致资源利用不足。下图显示了GPipe方法,其中将输入的迷你批处理分为较小的宏批处理,这些宏批处理可由加速器同时处理。

  

  图片来源:

  https://arxiv.org/pdf/1811.06965.pdf

  微软的PipeDream

  几个月前,微软研究院宣布创建Project Fiddle,这是一系列旨在简化分布式深度学习的研究项目。PipeDreams是Fiddle项目首次发布的版本之一,专注于深度学习模型训练的并行化。

  PipeDream采用与其他方法不同的方法来利用称为管道分布式的技术来扩展深度学习模型的训练。这种方法试图解决数据和模型并行技术的一些挑战,例如GPipe中使用的技术。

  通常,在云基础架构上进行训练时,数据并行方法在规模上会承受较高的通信成本,并且随着时间的推移会提高GPU计算速度。类似地,模型分布式技术通常在利用硬件资源上更加效率低下,程序员需要决定如何在给定硬件部署的情况下拆分其特定模型,给他们带来了不必要的负担。

  

  图片来源:

  http://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

  PipeDream尝试通过使用称为管道分布式的技术来克服数据模型分布式方法的一些挑战。

  从概念上讲,管道分布计算涉及将DNN模型的各层划分为多个阶段,其中每个阶段均由模型中的一组连续层组成。每个阶段都映射到一个单独的GPU,该GPU对该阶段中的所有层执行正向传递(和反向传递)。

  给定一个特定的深度神经网络,PipeDream会基于在单个GPU上执行的简短概要分析,自动确定如何对DNN的运算符进行分区,在不同阶段之间平衡计算负载,同时最大程度地减少与目标平台的通信。即使存在模型多样性(计算和通信)和平台多样性(互连拓扑和分层带宽),PipeDream也会有效地实现负载平衡。PipeDream训练分布式的方法的原理比数据模型分布式方法具有多个优点。

  对于初学者而言,PipeDream需要在工作程序节点之间进行较少的通信,因为管道执行中的每个工作程序仅需要将渐变的子集和输出激活信息传达给单个其他工作程序。

  

  图片来源:

  https ://www.microsoft.com/zh-cn/research/uploads/prod/2019/08/fiddle_pipedream_sosp19.pdf

  训练分布式是构建更大、更准确的深度学习模型的关键挑战之一。分布式训练方法是深度学习社区中一个活跃的研究领域,需要将有效的并发编程技术与深度学习模型的本质相结合。尽管仍处于早期阶段,但Google的GPipe和Microsoft的PipeDream本身已经是很优秀的产品,它是深度学习开发人员可用的两种最具创造性的分布式训练方法。

  素材来源:

  https://medium.com/dataseries/microsoft-and-google-open-sourced-these-frameworks-based-on-their-work-scaling-deep-learning-c0510e907038

  实习/全职编辑记者招聘ing

  加入我们,亲身体验一家专业科技媒体采写的每个细节,在最有前景的行业,和一群遍布全球最优秀的人一起成长。坐标北京·清华东门,在大数据文摘主页对话页回复“招聘”了解详情。简历请直接发送至zz@bigdatadigest.cn

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐

损失将达5490亿!澳大利亚3次主动“示好”:与中国互惠互利

金十数据
2020-12-04 15:59:45

那位让学弟“社会性死亡”的清华学姐,自己却倒下了

科技荟萃
2020-12-04 11:29:18

盘点靠三级片出道的顶级美人

涛涛说娱乐官方
2020-12-03 15:33:12

从疯狂天才到传奇明星:街霸系列33年的兴衰迭起

游久网
2020-12-04 11:15:36

嫦娥五号首次展示国旗,细节公布,国际评论:怎么和阿波罗不一样

强国网
2020-12-04 16:22:14

关键时刻,中美各发生了两件大事!

牛弹琴
2020-12-04 07:51:05

伊万卡被美检方传唤!川普已经在想办法赦免他孩子的所有罪行了...

英国那些事儿
2020-12-04 08:09:06

缉凶30年:命案疑犯已被杀

剥洋葱people
2020-12-04 08:56:38

"200亿"女院长曾称"从来不吃不喝不拿",网传与权势女结三姐妹

平顶山微友圈
2020-12-04 14:47:06

她画了很多女性器官,却一点都不色情——这是去幼儿园的车,你可以上车了!

设计癖
2020-12-04 08:44:41

“15元吃住,30元买性服务”:在中国最堕落的地方,年轻人集体等死

成功人士
2020-12-03 12:46:34

刚刚,北京传来大消息!国务院副总理这样说!关系所有中老年

斗城表里如一
2020-12-04 14:10:16

特朗普刚刚发推!威胁称若不终止230条款 将否决《国防授权法案》

和讯网
2020-12-04 15:00:26

新冠源头终于水落石出,俄方郑重发声,索赔大军这次彻底沉默了

日月军武V
2020-12-03 16:44:55

马化腾够爷们!澳总理莫里森的发文被微信删除,外交部对此回应

第一眼界
2020-12-04 11:19:35

女生与网友见面,在宾馆先后与两人轮流发生性关系,是轮奸?

刑事辩护研究
2020-12-04 11:48:59

李佳航前脚否认出轨,李晟后脚就曝光“小三”,网友:最有种男人

捕娱小生
2020-12-04 12:11:01

澳女星前往阿富汗慰问,轮流跟士兵发生关系,澳方下令彻查泄密者

海空视界
2020-12-03 17:17:03

《重案六组》最惨演员李婷独自抗癌9年离世,葬礼上12岁女儿痛哭

侃大叔通史
2020-12-04 06:50:02

女主播请粉丝到家偷情 老公在监控中看到崩溃

十点一分
2020-12-04 13:24:38
2020-12-04 19:04:59
大数据文摘
大数据文摘
专注大数据,每日有分享!
3903文章数 82075粉丝数
往期回顾 全部

科技要闻

中芯:进涉军名单,对运营没重大影响

头条要闻

返还福建村民!章公祖师肉身坐佛像跨国追索案宣判

头条要闻

南方城市GDP吊打北方 东北靠网红 天津排名回到大清

体育要闻

媒体:恒大选出10个中性名候选 许家印拍板广州队

娱乐要闻

张雨绮民族风造型曝光 少女感十足

财经要闻

汽车要闻

男子碰瓷新招数 恶意酿车祸当街猥亵女性

态度原创

亲子
旅游
房产
时尚
教育

亲子要闻

9岁男童狂爱跳街舞,拿奖无数,未料5年后不能走路

旅游要闻

残忍的女性割礼 为什么至今还不废除

房产要闻

几个信号显示,北京刚需"上车"窗口期正在关闭

王耀庆恶搞GQ封面 演技感人

教育要闻

抓领导、抓教师、抓学生 挥别“快乐的大学”