nodejs怎么才能用爬虫爬取https网页

 我来答

2个回答

#热议# 什么是淋病？哪些行为会感染淋病？

育知同创教育
2017-11-14 · 百度知道合伙人官方认证企业

育知同创教育

1【专注：Python+人工智能|Java大数据|HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址：北京市昌平区三旗百汇物美大卖场2层，微信公众号：yuzhitc】

向TA提问

关注

展开全部

爬虫爬https站点处理，方法步骤如下：
1、百度蜘蛛爬虫Spider爬取HTTPS网站
1)、根据网页中的超链接是否是HTTPS，网络中会有一些超链，如果是HTTPS会认为是HTTPS站点。
2)、根据站长平台提交入口的提交方式，例如主动提交，如果在文件当中提交的是HTTPS链接会以HTTPS的形式来发现。
3)、参考前链的抓取相对路径，第一个网页是HTTPS的，网站内容里面的路径提供的是相对路径，会认为这种链接是HTTPS。
4)、参考链接的历史状况，使用这种方式的原因主要是为了纠错，如果错误提取HTTPS会遇到两种情况，一种因为HTTPS不可访问会抓取失败，第二即使能抓成功可能展现出来的可能不是站长希望的，所以会有一定的纠错。
2、HTTPS链接的抓取
现在比较常见的两种，第一种是纯HTTPS抓取，就是它没有HTTP的版本，第二个是通过HTTP重定向到HTTPS，这两种都能正常的进行抓取跟HTTP抓取的效果是一样的。
3、HTTPS的展现
对于HTTPS数据，展现端会有明显的提示

已赞过 已踩过<

评论收起

优就业郭老师
2017-11-14 · TA获得超过961个赞

知道小有建树答主

回答量：1053

采纳率：90%

帮助的人：384万

我也去答题访问个人页

关注

展开全部

没有代码，不过我猜你用错了模块
const http = require('http')
const https = require('https') // https用这个

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

nodejs怎么才能用爬虫爬取https网页

其他类似问题

为你推荐：