如何使用Excel完成网站上的数据爬取

 我来答
华源网络
2022-06-24 · TA获得超过5589个赞
知道小有建树答主
回答量:2486
采纳率:100%
帮助的人:146万
展开全部

注意:本章节主要讲解数据获取部分

将网页中展示的数据爬取到可以编辑的文本工具中从而实现批量操作。在具体的爬取过程中,经常使用的根据有Excel和Python。

该板块由三个模块组成:

在爬虫过程中,最为常用的浏览器为谷歌浏览器和火狐浏览器。

实操步骤:

1.获取浏览器标识
以谷歌浏览器为例:
打开浏览器输入目标网站后,右键点击检查(快捷键Ctrl+Shift+I(注:不是L,是I)),在检查页面中点击Network后重新加载页面,在检查Network页面中单击第一个网页信息:index.html。在右边出现的窗口Headers中,将页面拉至底部可查找到浏览器标识UserAgent,复制UserAgent信息即可。

2.设置响应时间(位置用户浏览)
新建Excel并打开,点击自网站,在弹出的窗口中选择高级选项,将我们需要爬取的目标网址信息粘贴到Url位置处,同时在响应时间栏中设置1分钟的响应时间,

3.设置浏览器标识
HTTP请求标头参数中下拉选择UserAgent,粘贴浏览器的UserAgent信息。

4.将数据载入到Power Query中进行预处理,建立网页链接后,选择数据Table0,选择编辑进入Power Query中进行数据预处理。处理完数据后,依照惯例,制作可视化地图。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式