爬虫爬https站点怎么处理的
2个回答
展开全部
百度搜索引擎爬虫如何发现HTTPS
1)、根据网页中的超链接是否是HTTPS,网络中会有一些超链,如果是HTTPS会认为是HTTPS站点。
2)、根据站长平台提交入口的提交方式,例如主动提交,如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。
3)、参考前链的抓取相对路径,第一个网页是HTTPS的,网站内容里面的路径提供的是相对路径,会认为这种链接是HTTPS。
4)、参考链接的历史状况,使用这种方式的原因主要是为了纠错,如果错误提取HTTPS会遇到两种情况,一种因为HTTPS不可访问会抓取失败,第二即使能抓成功可能展现出来的可能不是站长希望的,所以会有一定的纠错。
2、HTTPS链接的抓取
现在比较常见的两种,第一种是纯HTTPS抓取,就是它没有HTTP的版本,第二个是通过HTTP重定向到HTTPS,这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。
详细介绍:网页链接
2021-06-16 · 百度认证:Gworg官方账号,科技领域创作者
Gworg
Gworg提供全球可信的SSL数字证书、服务器证书以及中文数字证书、PDF签名证书等服务,ssl证书申请、审核、颁发、安装。数字证书被广泛运用于各大网站加密、可严格防范钓鱼网站、黑客窃听。
向TA提问
关注
展开全部
不会影响,根据百度算法将优先于HTTPS站点。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询