ETL是什么意思
ETL是指获取原始大数据流,然后对其进行解析,并产生可用输出数据集的过程。
从数据源中提取(E)数据,然后经过各种聚合、函数、组合等转换(T),使其变为可用数据。最终,数据会被加载(L)到对它进行具体分析的环境中,这就是ETL流程。
全写是 Extract-Transform-Load。
1、E:Extract数据抽取
2、T:Transform转换
3、L:Load装载
扩展资料:
作用
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
以电信为例,A系统按照统计代码管理数据,B系统按照账目数字管理,C系统按照语音ID管理,当ETL需要对这三个系统进行集成以获得对客户的全面视角时,这一过程需要复杂的匹配规则、名称/地址正常化与标准化,而ETL在处理过程中会定义一个关键数据标准,并在此基础上,制定相应的数据接口标准。
参考资料来源:百度百科-ETL
2023-08-22 广告
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
扩展资料:
ETL与ELT:
ETL所描述的过程,一般常见的作法包含ETL或是ELT(Extract-Load-Transform),并且混合使用。通常愈大量的数据、复杂的转换逻辑、目的端为较强运算能力的数据库,愈偏向使用ELT,以便运用目的端数据库的平行处理能力。
ETL(orELT)的流程可以用任何的编程语言去开发完成,由于ETL是极为复杂的过程,而手写程序不易管理,有愈来愈多的企业采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。
工具可以提供较强大的连接功能(connectivity)来连接来源端及目的端,开发人员不用去熟悉各种相异的平台及数据的结构,亦能进行开发。当然,为了这些好处,付出的代价便是金钱。
ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
2023-06-21
具体地说,ETL 首先从源系统中抽取所需数据,这些数据可能来自不同类型的系统、数据库或者文件;接着对这些数据进行清洗、转换和加工等操作,如数据去重、合并、计算、格式化等,以便更好地满足目标系统的需求;最后将处理后的数据装载到目标系统中,供用户使用和分析。
建议下载datax、etlcloud、talend这类工具实操下,尝试里面各个模块能更好区分,方便文章理解
信息是现代企业的宝贵资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理(OLTP)的业务系统和办公自动化系统,从而记录事务处理的业务数据。遗憾的是,业务系统产生的数据增长很快,一般情况下,两到三年的时间,数据量就会成倍增长,这些丰富的、蕴含巨大商业价值的数据,所关注的通常只占在总数据量的2%到4%。从而企业将会失去有价值的客户、失去提高客服质量的指引、无法制定出最佳的营销手段和策略、等等。无论何种性质的企业,没有最大化的利用已存在的数据资源,都将浪费更多的时间和资金,也失去制定关键商业决策的最佳契机。
商业智能(BI,Business Intelligence) 就是为企业把数据转换为信息、知识,相应蕴育而出的IT技术。企业级BI的基础就是一个完整的、准确的、统一视角的数据平台,即DW(Data warehousing),而本文则要详细论述构建DW关键过程ETL的简介及必要性。
二、 术语描述
ETL:Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。
DW:Data Warehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”。
Metadata:元数据。描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。
三、 ETL是数据仓库建立的核心过程
数据仓库系统先天不足,是在业务系统的基础上发展而来的,其内部存储的数据来自于事务处理的业务系统和外部数据源。而企业内各源数据缺少统一的标准,因企业的业务系统是在不同时期、不同背景、面对不同应用、不同开发商等各种客观前提下建立的,其数据结构、存储平台、系统平台均存在很大的异构性。因而其数据难以转化为有用的信息,原始数据的不一致性导致决策时其可信度的降低。
ETL是BI/DW的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,其工作量要占整个项目的60%-80%,这是国内外从众多实践中得到的普遍共识。
四、 ETL过程的主要目的
就是以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据