网易首页 > 网易号 > 正文 申请入驻

【大数据技术】大数据特点与社会影响

0
分享至

大数据从概念兴起到应用落地,是一个水到渠成的过程。首先,虚拟化技术、大规模分布式数据管理技术、分布式的并行编程模式、面向服务的应用组装及管理、前端展现及交互技术的发展日新月异,为数据的产生、存储、处理提供了技术支撑。

同时,互联网思维日益喧嚣,各路诸侯跃跃欲试。“互联网+”导致企业视野更广,手臂更长,企业将触及前所未有的海量数据,同时应用场景也将层出不穷。

大数据具有四个特点:

(1)规模性。从现在的TB/PB级体量,很快就将进入ZB时代;

(2)异构性。类型丰富,既包括结构化数据,还包括图片、声音、视频等非结构化数据;

(3)时效性。数据采集和处理即时性强,满足市场的瞬息万变;(4)价值性。针对实际应用场景,提出可落地的管理建议。

传统的数据,实质上是基于业务逻辑的小数据,来自企业信息系统,如零售商的进销存系统。在万物互联时代,大数据是由非结构化数据构成,这些数据比原来的结构化数据多得多,比如微信里的一张照片抵得上小型超市进销存系统一个月的数据量。

目前,无线网络、可穿戴设备、物联网的普及,在丰富数据来源的同时,大大降低了数据采集成本。

大数据的社会影响

进入大数据时代,工业时代产生的社会结构和政治形态,都将被重塑。在过去,基础设施包括铁路、公路、机场、港口,而今智能终端、云计算、宽带网络扩展了其内涵;

在过去,土地、劳动力、资本是核心生产要素,而今数据已成为最有价值的资产。在过去,基于产业链的分工体系和市场体系,存在着巨大限制,如资源、制造基地和市场在时空层面的隔离与不平衡,会产生高额成本,也会受到规模限制。而今,大数据推动了大规模协同与共享协作方式。

目前,大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析或可视化的有效手段。大数据技术能够将大规模数据中隐藏的信息和知识挖掘出来,为人类社会经济活动提供依据,提高各个领域的运行效率,甚至整个社会经济的集约化程度。

1.大数据生命周期

图1展示了一个典型的大数据技术栈。底层是基础设施,涵盖计算资源、内存与存储和网络互联,具体表现为计算节点、集群、机柜和数据中心。

在此之上是数据存储和管理,包括文件系统、数据库和类似YARN的资源管理系统。然后是计算处理层,如hadoop、MapReduce和Spark,以及在此之上的各种不同计算范式,如批处理、流处理和图计算等,包括衍生出编程模型的计算模型,如BSP、GAS 等。数据分析和可视化基于计算处理层。分析包括简单的查询分析、流分析以及更复杂的分析(如机器学习、图计算等)。查询分析多基于表结构和关系函数,流分析基于数据、事件流以及简单的统计分析,而复杂分析则基于更复杂的数据结构与方法,如图、矩阵、迭代计算和线性代数。

一般意义的可视化是对分析结果的展示。但是通过交互式可视化,还可以探索性地提问,使分析获得新的线索,形成迭代的分析和可视化。基于大规模数据的实时交互可视化分析以及在这个过程中引入自动化的因素是目前研究的热点。

有2个领域垂直打通了上述的各层,需要整体、协同地看待。一是编程和管理工具,方向是机器通过学习实现自动最优化、尽量无需编程、无需复杂的配置。另一个领域是数据安全,也是贯穿整个技术栈。

除了这两个领域垂直打通各层,还有一些技术方向是跨了多层的,例如“内存计算”事实上覆盖了整个技术栈。

2.大数据技术生态

大数据的基本处理流程与传统数据处理流程并无太大差异,主要区别在于:由于大数据要处理大量、非结构化的数据,所以在各处理环节中都可以采用并行处理。目前,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。Hadoop 是一个数据管理系统,作为数据分析的核心,汇集了结构化和非结构化的数据,这些数据分布在传统的企业数据栈的每一层。

Hadoop也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。Hadoop又是一个开源社区,主要为解决大数据的问题提供工具和软件。

虽然Hadoop提供了很多功能,但仍然应该把它归类为多个组件组成的Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理和其他进行数据分析的专门工具。图2 展示了Hadoop 的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件构成,另外还包括Sqoop、Flume等框架,用来与其他企业融合。

同时,Hadoop 生态系统也在不断增长,新增Mahout、Ambari、Whirr、BigTop 等内容,以提供更新功能。

图2Hadoop生态系统

低成本、高可靠、高扩展、高有效、高容错等特性让Hadoop成为最流行的大数据分析系统,然而其赖以生存的HDFS 和MapReduce 组件却让其一度陷入困境——批处理的工作方式让其只适用于离线数据处理,在要求实时性的场景下毫无用武之地。

因此,各种基于Hadoop的工具应运而生。为了减少管理成本,提升资源的利用率,有当下众多的资源统一管理调度系统,例如Twitter 的Apache Mesos、Apache 的YARN、Google 的Borg、腾讯搜搜的Torca、Facebook Corona(开源)等。

Apache Mesos是Apache孵化器中的一个开源项目,使用ZooKeeper实现容错复制,使用Linux Containers 来隔离任务,支持多种资源计划分配(内存和CPU)。

提供高效、跨分布式应用程序和框架的资源隔离和共享,支持Hadoop、MPI、Hypertable、Spark 等。YARN 又被称为MapReduce 2.0,借鉴Mesos,YARN 提出了资源隔离解决方案Container,提供Java 虚拟机内存的隔离。

对比MapReduce 1.0,开发人员使用ResourceManager、ApplicationMaster与NodeManager代替了原框架中核心的JobTracker 和TaskTracker。在YARN平台上可以运行多个计算框架,如MR、Tez、Storm、Spark等。

基于业务对实时的需求,有支持在线处理的Storm、Cloudar Impala、支持迭代计算的Spark 及流处理框架S4。Storm是一个分布式的、容错的实时计算系统,由BackType开发,后被Twitter捕获。

Storm属于流处理平台,多用于实时计算并更新数据库。Storm也可被用于“连续计算”(Continuous Computation),对数据流做连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

Cloudera Impala是由Cloudera开发,一个开源的Massively Parallel Processing(MPP)查询引擎。与Hive 相同的元数据、SQL语法、ODBC 驱动程序和用户接口(HueBeeswax),可以直接在HDFS 或HBase 上提供快速、交互式SQL 查询。Impala是在Dremel的启发下开发的,不再使用缓慢的Hive+MapReduce 批处理,而是通过与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator 和Query Exec Engine这3部分组成),可以直接从HDFS 或者HBase 中用SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。

Hadoop社区正努力扩展现有的计算模式框架和平台,以便解决现有版本在计算性能、计算模式、系统构架和处理能力上的诸多不足,这正是Hadoop2.0 版本“ YARN”的努力目标。各种计算模式还可以与内存计算模式混合,实现高实时性的大数据查询和计算分析。

混合计算模式之集大成者当属UC Berkeley AMP Lab 开发的Spark生态系统,如图3所示。Spark 是开源的类Hadoop MapReduce的通用的数据分析集群计算框架,用于构建大规模、低延时的数据分析应用,建立于HDFS之上。Spark提供强大的内存计算引擎,几乎涵盖了所有典型的大数据计算模式,包括迭代计算、批处理计算、内存计算、流式计算(Spark Streaming)、数据查询分析计算(Shark)以及图计算(GraphX)。

Spark 使用Scala 作为应用框架,采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop 不同的是,Spark 和Scala 紧密集成,Scala 像管理本地collective 对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统上与Hadoop一起运行(通过YARN、Mesos等实现)。

另外,基于性能、兼容性、数据类型的研究,还有Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Hama、Apache Tez、Apache Ambari 等其他开源解决方案。预计未来相当长一段时间内,主流的Hadoop平台改进后将与各种新的计算模式和系统共存,并相互融合,形成新一代的大数据处理系统和平台。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
塔图姆:若再次被热火淘汰会考虑退役,希望在热火主场创造奇迹

塔图姆:若再次被热火淘汰会考虑退役,希望在热火主场创造奇迹

小豆豆赛事
2024-04-25 13:58:53
偶遇经超夫妇重庆吃烧烤,小李琳穿千元衣又胖又老,遭恶评似母子

偶遇经超夫妇重庆吃烧烤,小李琳穿千元衣又胖又老,遭恶评似母子

娱乐八卦木木子
2024-04-25 22:10:00
爱情公寓秦羽墨扮演者新开美甲店被吐槽技术不好,店员回应

爱情公寓秦羽墨扮演者新开美甲店被吐槽技术不好,店员回应

金羊网
2024-04-25 15:23:17
中国顶级男歌手排名,你认同吗?

中国顶级男歌手排名,你认同吗?

娱乐八卦木木子
2024-04-25 21:10:56
怎么打得过?广厦仅5人得分 广东10名上场球员全部有贡献

怎么打得过?广厦仅5人得分 广东10名上场球员全部有贡献

直播吧
2024-04-25 20:54:16
他凭借一句“打败美帝野心狼”爆火,却移居美国,如今后悔了吗?

他凭借一句“打败美帝野心狼”爆火,却移居美国,如今后悔了吗?

冯律讲法
2024-04-23 08:00:10
崔永熙报名NBA选秀!上次被NBA选中的中国球员是周琦和王哲林

崔永熙报名NBA选秀!上次被NBA选中的中国球员是周琦和王哲林

直播吧
2024-04-25 17:31:20
安妮海瑟薇自曝:为试镜一口气亲十个人!好莱坞想要的CP感,有点费演员...

安妮海瑟薇自曝:为试镜一口气亲十个人!好莱坞想要的CP感,有点费演员...

英国那些事儿
2024-04-24 23:10:38
4月还没结束,37岁杨幂以这样的方式败光观众缘,孙俪的话应验了

4月还没结束,37岁杨幂以这样的方式败光观众缘,孙俪的话应验了

糊咖娱乐
2024-04-23 17:47:12
23+6!23+6!胡明轩引爆CBA,你的不服输,恐破坏辽篮三连冠大计

23+6!23+6!胡明轩引爆CBA,你的不服输,恐破坏辽篮三连冠大计

多特体育说
2024-04-25 23:22:47
上海突发!陈德美被查

上海突发!陈德美被查

中国基金报
2024-04-25 20:14:03
扎克伯格,决定掀桌子了

扎克伯格,决定掀桌子了

虎嗅APP
2024-04-25 16:41:07
润美20年的老华裔来了趟中国,回去后被润人们疯狂围攻

润美20年的老华裔来了趟中国,回去后被润人们疯狂围攻

莫问先生
2023-12-22 23:29:39
弯道超车失败了?马斯克正式宣布,外媒:华为6G还能保持领先吗?

弯道超车失败了?马斯克正式宣布,外媒:华为6G还能保持领先吗?

疯狂小菠萝
2024-04-25 18:59:25
重大信号!网传贝壳开始关闭二手房成交价了!

重大信号!网传贝壳开始关闭二手房成交价了!

住在大南京
2024-04-24 19:14:25
人社部会同财政部公布好消息,涉及到社保养老金,退休人员看看

人社部会同财政部公布好消息,涉及到社保养老金,退休人员看看

社保小达人
2024-04-25 12:56:53
中青报:中国足球进入新的奥运周期 U19国足将于5月底展开集训

中青报:中国足球进入新的奥运周期 U19国足将于5月底展开集训

直播吧
2024-04-25 11:07:20
美国已经拟定准备下手中资银行,切断它们与国际金融市场联系

美国已经拟定准备下手中资银行,切断它们与国际金融市场联系

创作者_nEvV
2024-04-25 05:48:48
撒切尔夫人回忆录中坦言,当年不想归还香港,甚至考虑过发动战争

撒切尔夫人回忆录中坦言,当年不想归还香港,甚至考虑过发动战争

蹲马桶看历史
2024-04-22 09:42:23
五月天宣布鸟巢连开十场!假唱调查5个月没结果,话题冲上热搜

五月天宣布鸟巢连开十场!假唱调查5个月没结果,话题冲上热搜

萌神木木
2024-04-24 21:59:07
2024-04-26 00:12:50
火车采集器
火车采集器
分享最具价值的大数据资讯
2931文章数 339关注度
往期回顾 全部

科技要闻

北京车展,被穿红衣服的他们占领

头条要闻

"东郊到家"女技师色诱要求"加钟" 曾有女技师1月挣6万

头条要闻

"东郊到家"女技师色诱要求"加钟" 曾有女技师1月挣6万

体育要闻

当胜利变成意外,就不要再提未来……

娱乐要闻

心疼!伊能静曝儿子曾被狗仔追到洗手间

财经要闻

24年后再产纯净水 农夫山泉为何要打自己脸

汽车要闻

全新哈弗H9亮相 大号方盒子硬派SUV入列

态度原创

旅游
本地
艺术
时尚
公开课

旅游要闻

京都热门景点一棵樱花树突然倒下 游客被砸成重伤

本地新闻

云游中国|苗族蜡染:九黎城的“潮”文化

艺术要闻

艺术名画︱爱尔兰画家大卫·科因的刀画作品

复盘中年女人的穿搭,才知道不扮嫩更高级有气质,这么穿很美

公开课

睡前进食会让你发胖吗?

无障碍浏览 进入关怀版