需要清洗的数据的主要类型包括

 我来答
贾贾爱语文
2023-01-09 · TA获得超过416个赞
知道小有建树答主
回答量:2213
采纳率:100%
帮助的人:47.3万
展开全部

需要清洗的数据的主要类型包括以下这些:

一、残缺数据:

此类数据主要是缺少某些应包括的信息,如供应商名称、分公司名称、客户区域信息缺失、业务系统中主表与明细表不匹配等。那么对于这一类型的数据就需要过滤出来,并在规定的时间内补全,之后再写入数据仓库。

二、错误数据:

这类数据的原因是业务系统完善接收输入后没有判断直接写入背景数据库,如数值数据输成全角数字字符、字符串数据、日期格式不正确、日期越界等。

这种类型的数据还需要进行分类,对于类似于全角字符、数据前后出现不可见字符的问题,只能通过编写SQL语句来查找,然后让用户在业务系统改后抽取。

日期格式不正确或日期越界的错误会导致ETL运行失败,这种错误需要通过SQL的方式从业务系统数据库挑选出来,交给业务主管部门,要求限期修改,改后提取。

三、重复数据:

这种类型的数据,尤其是在维表中,就会出现这种情况,所以要把所有重复数据记录的字段都写出来,让客户进行确认和分析。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式