请教各位高手,我是用的网络爬虫程序采集的网页数据,如何进行数据清洗?
要把广告信息清洗掉,只留下有用的,放入MYSQL数据库中。请解答一下,希望是详细过程,本人是菜鸟,拜谢!!!...
要把广告信息清洗掉,只留下有用的,放入MY SQL数据库中。请解答一下,希望是详细过程,本人是菜鸟,拜谢!!!
展开
展开全部
预处理阶段
第一步:缺失值清洗
1、确定缺失值范围
2、去除不需要的字段
3、填充缺失内容
4、重新取数
第二步:格式内容清洗
1、时间、日期、数值、全半角等显示格式不一致
2、内容中有不该存在的字符
3、内容与该字段应有内容不符
第三步:逻辑错误清洗
1、去重
2、去除不合理值
3、修正矛盾内容
第四步:非需求数据清洗
第五步:关联性验证
第一步:缺失值清洗
1、确定缺失值范围
2、去除不需要的字段
3、填充缺失内容
4、重新取数
第二步:格式内容清洗
1、时间、日期、数值、全半角等显示格式不一致
2、内容中有不该存在的字符
3、内容与该字段应有内容不符
第三步:逻辑错误清洗
1、去重
2、去除不合理值
3、修正矛盾内容
第四步:非需求数据清洗
第五步:关联性验证
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
用正则语法,将采集结果中的广告代码删除掉即可。应该不难的
追问
可是我需要采集到的数据量比较大,还有就是怎样放入数据库中呢?麻烦详细解释一下,谢谢
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
论坛版主招聘 团队组建招人 www zuovw com 手机类论坛招人啦
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询