java怎么用webcollector爬取js动态页面工程

 我来答

1个回答

#热议# 上班途中天气原因受伤算工伤吗？

休差短长e
2017-09-26 · 超过48用户采纳过TA的回答

知道小有建树答主

回答量：68

采纳率：100%

帮助的人：52.1万

我也去答题访问个人页

关注

展开全部

使用WebCollector来爬取百度搜索引擎按照关键字搜索的结果页面，解析规则可能会随百度搜索的改版而失效。

* 我们希望继续爬取每条搜索结果指向的网页，这里统称为外链。
* 我们希望在访问外链时仍然能够知道外链处于搜索引擎的第几页、第几条，
* 所以将页号和排序信息放入后续的CrawlDatum中，为了能够区分外链和
* 搜索引擎结果页面，我们将其pageType设置为outlink，这里的值完全由用户定义，可以设置一个任意的值
* 在经典爬虫中，每个网页都有一个refer信息，表示当前网页的链接来源。
* 例如我们首先访问新浪首页，然后从新浪首页中解析出了新的新闻链接，
* 则这些网页的refer值都是新浪首页。WebCollector不直接保存refer值，
* 但我们可以通过下面的方式，将refer信息保存在metaData中，达到同样的效果。
* 经典爬虫中锚文本的存储也可以通过下面方式实现。
* 在一些需求中，希望得到当前页面在遍历树中的深度，利用metaData很容易实现
* 这个功能，在将CrawlDatum添加到next中时，将其depth设置为当前访问页面的depth+1即可。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

新版java-360文库在线阅读-可下载可打印

360文库全行业资料文档，覆盖学习资料、实用文档、总结范文、协议模板、汇报资料、行业材料等6亿+精品文档，快速下载，即刻套用，任您挑选!

wenku.so.com广告

java怎么用webcollector爬取js动态页面工程

您可能关注的内容

其他类似问题

为你推荐：