ETL工程师要学什么?

 我来答
宝我想去看看
2021-11-01 · 记录生活热爱生活分享生活
宝我想去看看
采纳数:215 获赞数:9109

向TA提问 私信TA
展开全部

技术方面:需要学习使用数据源、目标端工具的基本使用(如 oracle MySQL hive等);需要学习etl工具的安装配置常用错误解决(如 kettle DataStage infa sqoop datax等)

理论方面:懂得数仓分层架构,维度建模等。

从ETL的字面来看,它主要包含三大阶段,分别是数据抽取、数据转换、数据加载。

1.数据抽取

这个阶段的主要目标是汇总多种数据源,为下一步的转换做准备。

2.数据转换

这个阶段是ETL的核心环节,也是最复杂的环节。它的主要目标是将抽取到的各种数据,进行数据的清洗、格式的转换、缺失值填补、剔除重复等操作,最终得到一份格式统一、高度结构化、数据质量高、兼容性好的数据,为后续的分析决策提供可靠的数据支持。

3.数据加载

这个阶段的主要目标是把数据加载至目的地,比如数据仓库中。通常的做法是,将处理好的数据写成特定格式(如parquet、csv等)的文件,然后再把文件挂载到指定的表分区上。也有些表的数据量很小,不会采用分区表,而是直接生成最终的数据表。

了解了ETL这部分的工作主要做什么,接下来再来说作为ETL工程师需要具备哪些技能,这些也就是需要学习的重点——

1、精通SQL语言,具备存储过程开发能力,能熟练进行SQL查询优化;

2、熟悉Hive数据仓库设计,了解数据仓库模型及思想、维度建模思想,了解数据仓库;

3、熟悉Hadoop、Spark、Flink、Kafka等相关技术;

4、熟练Python、Java中至少一种语言;

5、熟悉Mysql、Nosql等常见数据库。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式