爬虫爬https站点怎么处理的

 我来答

若以下回答无法解决问题，邀请你更新回答

1个回答

匿名用户
2017-10-18

展开全部

百度搜索引擎爬虫抓取HTTPS流程
1)、根据网页中的超链接是否是HTTPS，网络中会有一些超链，如果是HTTPS会认为是HTTPS站点。
2)、根据站长平台提交入口的提交方式，例如主动提交，如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。
3)、参考前链的抓取相对路径，第一个网页是HTTPS的，网站内容里面的路径提供的是相对路径，会认为这种链接是HTTPS。
4)、参考链接的历史状况，使用这种方式的原因主要是为了纠错，如果错误提取HTTPS会遇到两种情况，一种因为HTTPS不可访问会抓取失败，第二即使能抓成功可能展现出来的可能不是站长希望的，所以会有一定的纠错。
现在比较常见的两种，第一种是纯HTTPS抓取，就是它没有HTTP的版本，第二个是通过HTTP重定向到HTTPS，这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。
详细解读：https://www.wosign.com/news/bdspider-https.htm

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

1条折叠回答

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

网络爬虫工具-数据采集就用后羿采集器-小白神器，一键采集

基于人工智能算法的新一代智能网络爬虫工具，不需要配置采集规则，一键采集!导出采集结果无数量限制~不要积分~~

www.houyicaiji.com广告

海外网站反爬虫，网络爬虫程序，防止网络恶意爬虫的攻击

www.akamai.com

网络爬虫是什么专为初学者设计，多领域实战

网络爬虫是什么零基础起步，多领域实战，手把手带你稳步胜任全能工作网络爬虫是什么对标企业岗位技能需求，涵盖5大热门领域，全流程实战，一站式就业

class.imooc.com广告

爬虫爬https站点怎么处理的

您可能关注的内容

其他类似问题

为你推荐：