网易首页 > 网易号 > 正文 申请入驻

不知道这些,也敢说懂数据分析!

0
分享至

信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。企业如何通过各种技术手段,并把数据转换为信息、知识,是提高其核心竞争力的关键,而数据处理在其中起着举足轻重的作用。因为数据处理的时效性,准确性直接影响数据的分析与挖掘,分析的最终结果影响业务的营销与收入。

今天我们就来说说一种重要的数据处理手段ETL(Extract-Transform-Load)

以下为译文:

ETL是什么?ETL是Extract(提取)、Transformation(转换)和Load(加载)的首字母缩写。简而言之,ETL就是在两个位置之间复制数据。

Extract(提取):从不同类型的数据源(包括数据库)读取数据。

Transform(转换):将提取的数据转换成特定的格式。转换还包括使用系统中其他数据来丰富数据。

Load(加载):将数据写入到目标数据库、数据仓库或者其他系统的过程。

根据基础架构的不同,ETL可以划分为两大类。

01

传统ETL

传统ETL

过去,数据通常都保存在操作系统、文件和数据仓库中。每天,数据都要在这些位置之间移动多次。ETL工具和脚本都是现写现用。

图|传统ETL的工作流

这个架构非常难以管理且非常复杂。以下是传统ETL架构的一些缺点:

数据库、文件和数据仓库之间的处理以批次进行。

目前,大多数公司都需要分析并操作实时数据。但是,传统的工具不适合分析日志、传感器数据、测量数据等。

非常大的领域数据模型需要全局的结构。

传统ETL处理非常慢、非常耗时,而且需要大量资源。

传统架构仅关注已有的技术。因此,每次引入新的技术,应用程序和工具都要重新编写。

随着时间的流逝,大数据改变了处理的顺序。数据先提取并加载到一个仓库中,并以原始格式保存。只要数据分析人员或其他系统需要,就可以对数据进行转换。这个过程叫做ELT。不过这个过程最适合在数据仓库中进行处理。如Oracle Data Integration Platform Cloud等系统提供了该功能。

02

现代ETL

现代ETL

与十年前相比,当今世界的数据和处理状况已经发生了巨大的变化。在处理现代数据时,传统的ETL流程会导致差距。以下是造成这种情况的一些主要原因:

现代数据处理通常包括实时数据的处理,而且组织也需要对处理过程的实时洞察。

系统需要在数据流上执行ETL,不能使用批处理,而且应该能够自动伸缩以处理更高的数据流量。

一些单服务器的数据库已经被分布式数据平台(如Cassandra、MongoDB、Elasticsearch、SAAS应用程序等)、消息传递机制(Kafka、ActiveMQ等)和几种其他类型的端点代替。

系统应该能够以可管理的方式加入额外的数据源或目的地。

应当避免由于“现写现用”的架构导致的重复数据处理。

改变数据捕获技术的方式,从要求传统ETL与之集成,变成支持传统操作。

数据源多样化,而且需要考虑新需求的可维护性。

源和目标端点应该与业务逻辑解耦合。使用数据映射层,将新的源和端点无缝地衔接,而且不影响数据转换过程。

图|数据映射层

接收到的数据应当在转换(或执行业务规则)之前进行标准化。

数据应该在转换之后、发布到端点之前转换成特定的格式。

数据清理并不是现代世界中唯一的数据转换过程。数据转换还需要满足组织的许多业务需求。

目前的数据处理通常包含过滤、连接、聚合、序列、模式和丰富化,以执行复杂的业务逻辑。

图|数据处理过程

03

GAOKAO

拯救世界的流式ETL

新的数据需求是驱动组织前进的动力。许多组织中的绝大多数传统系统依然能够运行,这些系统使用的都是数据库和文件系统。这些组织也在尝试新的系统和新技术。这些技术能够处理大数据和增长和更快的数据速率(如每秒上万条记录),如Kafka、ActiveMQ等。

使用流式ETL继承架构,组织不需要计划、设计并实现一个复杂的架构,就能填补传统系统和现代系统之间的空白。流式ETL架构师可伸缩的、可管理的,还能处理大容量、结构多样的实时数据。将数据提取和加载从数据转换中解耦合,就构成了源-目的地模型,该模型可以让系统与未来的新技术向前兼容。这个功能可以通过许多系统实现,如Apache Kafka(配合KSQL)、Talend、Hazelcast、Striim和WS02 Streaming Integrator(配合Siddhi IO)。

04

现代ETL功能

现代ETL功能

如上所述,传统系统通常将所有数据都放到数据库和文件系统中,以便进行批处理。这个场景说明了为何传统的事件源(如文件、改变数据捕获(Change Data Capture,简称CDC))要与新的流式集成平台集成。我们考虑一下具有以下功能的生产工厂的实际情况。

传统系统:

将所有生产数据放到文件系统和数据库中,数据的格式各异。

每小时或每天对数据进行处理。

处理来自CDC的事件。

处理新系统通过HTTP收到的以事件为中心的数据。

将处理过的事件发送到多个目的地。

监视当前的库存,在需要新库存的时候发送通知。

使用库存数量查看分析结果。

在传统的ETL工具中:

ETL处理逻辑重复了以下操作:

对于每个结构不同的文件和数据库。

当目标或源端点的数量增加时。

重复的业务逻辑很难管理和伸缩。

分析和监视所需的数据计算是重复的。

流式平台架构如何解决现代ETL问题:

图|现代流式平台的工作流

源(例如文件、CDC、HTTP)和目标端点(如Kafka、Elasticsearch、Email)从处理过程中解耦合:

目标、源和存储API连接到多个数据源。

即使源和目标中的数据结构不同,数据映射(如data mapper)层和流SQL(如Query1)也会把从多个源接收到的事件转换成通用的源定义(如Stream1),以便以后进行处理。

流平台架构可以连接传统类型的数据源(如文件和CDC),和广泛应用的现代数据源(如HTTP)。

传统系统和现代系统生成的事件都用同一个工作流进行接收和分析。

聚合(如Aggregation1)按照每分钟、每小时等频率针对需要的属性进行计算。

数据随时按需进行汇总,不需要对整个数据集进行处理和汇总。应用程序和可视化、监视工具可以通过提供的API访问汇总后的数据。

可以无缝地添加并改变一个或多个业务逻辑(如BusinessRule1)。

可以添加任何逻辑,而无需改变已有组件。如上例中,根据BusinessRule1,当紧急程度升高时,就会触发一条Email消息。

通过上述架构,我们可以看到为了ETL数据处理,流式平台与传统系统集成,如文件、CDC与使用Kafka和HTTP的现代系统的结合。

本文为文谷科技翻译文章

来源:Dzone

原文:https://dzone.com/articles/etl-and-how-it-changed-over-time

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海骂保安红衣男真实身份曝光!罗总顶住压力没辞退保安!

上海骂保安红衣男真实身份曝光!罗总顶住压力没辞退保安!

远荐
2024-05-05 17:18:13
79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金

79年对越作战我军阵亡近8千人,骨灰盒分2类,白色的不发放抚恤金

南书房
2024-05-05 09:40:03
ST板块掀跌停潮

ST板块掀跌停潮

每日经济新闻
2024-05-06 09:55:10
雷军走访完车企很绝望:这不就是靠蒙吗?不需要那么多同质化车

雷军走访完车企很绝望:这不就是靠蒙吗?不需要那么多同质化车

三言科技
2024-05-05 20:07:06
中方五连问批驳菲律宾,菲防长仍在狡辩!

中方五连问批驳菲律宾,菲防长仍在狡辩!

环球网资讯
2024-05-06 06:16:10
湖北随州大搞“死人房地产”,吃相太难看|神州评论

湖北随州大搞“死人房地产”,吃相太难看|神州评论

陶舜财经
2024-05-06 13:16:07
俄罗斯:大家不要参加和平峰会,话音刚落,一亲俄总理就宣布与会

俄罗斯:大家不要参加和平峰会,话音刚落,一亲俄总理就宣布与会

飞狼
2024-05-06 07:20:05
LV门口排长龙,药妆店半夜12点还在血拼!日元34年来“最便宜”,橙柿记者日本买买买的亲历和观察

LV门口排长龙,药妆店半夜12点还在血拼!日元34年来“最便宜”,橙柿记者日本买买买的亲历和观察

都市快报橙柿互动
2024-05-06 11:09:49
中国承认被菲律宾越过红线:“护栏”已被拆除,再不出手后果严重

中国承认被菲律宾越过红线:“护栏”已被拆除,再不出手后果严重

忠诚TALK
2024-05-05 15:56:02
法国总理为中方接机,说完一句中文后,得到中方高层亲口访华邀请

法国总理为中方接机,说完一句中文后,得到中方高层亲口访华邀请

王晋博士
2024-05-06 12:07:19
湖南安慈高速路面出现裂缝,全线正式通车仅2年半,交警:涉事路段封闭

湖南安慈高速路面出现裂缝,全线正式通车仅2年半,交警:涉事路段封闭

极目新闻
2024-05-06 12:31:27
胖猫谭竹亲密照曝光,男方憨厚高大健壮,谭竹依偎男友画面温馨

胖猫谭竹亲密照曝光,男方憨厚高大健壮,谭竹依偎男友画面温馨

懂瓜瓜
2024-05-05 22:07:48
套现懒王?莱奥下场时遭全场嘘声,目前4场球荒身价9000万欧

套现懒王?莱奥下场时遭全场嘘声,目前4场球荒身价9000万欧

直播吧
2024-05-06 10:00:15
广东省揭阳市交通运输局原党组副书记、市公路事务中心原主任林少锐被“双开”

广东省揭阳市交通运输局原党组副书记、市公路事务中心原主任林少锐被“双开”

界面新闻
2024-05-06 11:09:56
王思聪日本开库里南出门,与三网红坐过山车,近照憔悴疑纵欲过度

王思聪日本开库里南出门,与三网红坐过山车,近照憔悴疑纵欲过度

牧歌侃娱
2024-05-05 15:28:30
保安劝阻游客搭帐篷被威胁工作不保?涉事酒店:忠于职责,未辞退

保安劝阻游客搭帐篷被威胁工作不保?涉事酒店:忠于职责,未辞退

澎湃新闻
2024-05-06 08:18:30
谭竹上抖音百科并被曝光照片,网友呼吁尊重个人隐私

谭竹上抖音百科并被曝光照片,网友呼吁尊重个人隐私

映射生活的身影
2024-05-05 18:59:36
网友晒出香港某医院的手术通知单,病人年龄80岁,手术时间被安排在2031年

网友晒出香港某医院的手术通知单,病人年龄80岁,手术时间被安排在2031年

可达鸭面面观
2024-05-05 15:03:33
俄乌冲突外溢,契丹或进入物价大涨时代

俄乌冲突外溢,契丹或进入物价大涨时代

爱吃鱼的哆啦A梦
2024-05-05 11:31:19
世界接力赛:谢震业苏炳添未出战,中国队38秒75第6名完赛

世界接力赛:谢震业苏炳添未出战,中国队38秒75第6名完赛

ALL体育
2024-05-06 10:19:06
2024-05-06 14:14:44
文谷科技
文谷科技
为制造企业提供智能工厂方案
78文章数 0关注度
往期回顾 全部

科技要闻

发布会前瞻|全iPad Pro有望成PC真正替代品

头条要闻

20名国民党、民众党"立委"将登太平岛 民进党无人参与

头条要闻

20名国民党、民众党"立委"将登太平岛 民进党无人参与

体育要闻

大火收汁!重夺汤杯,国羽说到做到

娱乐要闻

又等到了!杨紫连续8年为张一山庆生

财经要闻

谁是万达接盘侠?

汽车要闻

"高阶智驾"配上了 极狐阿尔法S先行版PRO亮相

态度原创

时尚
家居
教育
旅游
健康

夏季通勤怎么穿?来看看这些实用的搭配模板,真是优雅不过时

家居要闻

理想生活 满城灯火辉煌不及家灯一盏

教育要闻

离心率还挺受欢迎的!

旅游要闻

“夜游”新场景 激发“假日经济”新活力

春天野菜不知不识莫乱吃

无障碍浏览 进入关怀版