爬虫爬https站点怎么处理的

 我来答
我de身上有wifi
2017-07-17 · 知道合伙人互联网行家
我de身上有wifi
知道合伙人互联网行家
采纳数:235 获赞数:1174
本人14年初开始从事互联网运营推广,3年以上互联网运营推广经验,丰富的实战经验。现负责运营推广工作。

向TA提问 私信TA
展开全部
百度蜘蛛爬虫Spider爬取HTTPS网站
1)、根据网页中的超链接是否是HTTPS,网络中会有一些超链,如果是HTTPS会认为是HTTPS站点。
2)、根据站长平台提交入口的提交方式,例如主动提交,如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。
3)、参考前链的抓取相对路径,第一个网页是HTTPS的,网站内容里面的路径提供的是相对路径,会认为这种链接是HTTPS。
4)、参考链接的历史状况,使用这种方式的原因主要是为了纠错,如果错误提取HTTPS会遇到两种情况,一种因为HTTPS不可访问会抓取失败,第二即使能抓成功可能展现出来的可能不是站长希望的,所以会有一定的纠错。
2、HTTPS链接的抓取
现在比较常见的两种,第一种是纯HTTPS抓取,就是它没有HTTP的版本,第二个是通过HTTP重定向到HTTPS,这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。
3、HTTPS的展现
对于HTTPS数据,展现端会有明显的提示
数阔八爪鱼采集器丨RPA机器人
2023-08-10 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
八爪鱼采集器可以处理爬取https站点的数据。在设置采集规则时,您可以选择使用https协议进行数据采集。八爪鱼采集器会自动处理https站点的证书验证,确保数据的安全性和准确性。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式