用python的scrapy框架写的爬取网易新闻的爬虫,有些正则表达式不知道怎么写的?大家帮帮忙~ 10

第一个问题是,用scrapy框架爬取网易新闻和评论的时候,在spider里面继承了crawlspider这个类,里面的start_urls,是怎么找出来的?第二个问题是,... 第一个问题是,用scrapy框架爬取网易新闻和评论的时候,在spider里面继承了crawlspider这个类,里面的start_urls,是怎么找出来的?第二个问题是,抓取评论的时候,评论是json格式的嵌套,那评论链接的正则表达式是从哪里找到的呢?我知道是从网页源代码里面找出来的,可是具体是那一部分呢?求大侠们解答! 展开
 我来答
边缘Time
2017-04-11 · Office爱好者,金山稻壳文档设计师
边缘Time
采纳数:60 获赞数:493

向TA提问 私信TA
展开全部
start_urls是一个API链接,一般是通过抓包获取的。评论链接的正则是根据json的结构编写的,需要学习正则。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式