大数据工程分析有哪些操作?

请问,大数据工程分析有哪些操作?... 请问,大数据工程分析有哪些操作? 展开
 我来答
环球青藤
2021-05-10 · 专注大学生职业技能培训在线教育品牌
环球青藤
环球青藤开设了就业、技能培训、职业资格考试、学历提升、外语培训、留学和兴趣类专业课程、为大学生提供考试/就业双重服务。
向TA提问
展开全部

1、预处理


数据的预处理操作涉及到:一是数据的码制转换,常见的码制有GBK、UTF-8、UNICODE;二是繁简转化,尤其是港台的一些文字;三是html内容文本提取,从互联网采集的数据通常为HTML格式,需要将HTML中可以显示的文本内容提取出来,作为指定字段的内容;四是表情符的处理、字段的拆分与合并等操作等都是在数据预处理环节做的操作。



2、归一化


数据的归一化包含不同信源数据的字段归一化、特征归一化、时间归一化、地名归一化。首先,字段归一化是指将不同爬虫采集到的同一字段整合,比如不同爬虫采下来的作者字段,命名可能不同,有的可能叫发布者,有的可能叫作者,如果需要把数据整合到一起分析,首先需要把字段命名做归一。其次,时间归一化是指,比如表达时间,文本可能是某年某月某日的形式,也可能是2019/12/20的形式,也可能是几天前、几小时前,时间归一化要做的就是将这些时间的表达统一成一种表达形式,这样才可以做后续的数据分析和统计。


3、数据清洗


对数据采集过程中产生的噪音数据进行清洗,噪音可能是字段的部分内容,也可能是整条数据,比如做电商评论数据处理的时候,需要清洗掉字符数小于5的无效数据或者默认好评的灌水数据或者水军发布的数据,这一操作需要根据具体的需求及数据质量去确定。


4、去除重复数据


数据存在重复是很常见的现象,但造成数据重复的原因是多种多样的,对于数据重复通常需要针对性处理,所以需要一个判断重复的标准。比较简单的就是所有都一模一样的判定为重复,这个也是比较好处理的,复杂的数据判重需要一个或多个字段联合,当字段为文本类型时,通常需要引入CRC或MD5算法产生新的判重字段。

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式