为什么python写的爬虫有时候抓取的数据是乱

 我来答

1个回答

#热议# 为什么说不要把裤子提到肚脐眼？

智者总要千虑

高粉答主

2017-12-11 · 说的都是干货，快来关注

知道顶级答主

回答量：7.9万

采纳率：88%

帮助的人：1.4亿

我也去答题访问个人页

关注

展开全部

1. 使用chrome浏览器，打开示例页面
2. 在帖子标题处，右键选择"审查元素"，可以看到标题的源代码

3. 进行简单的分析，我们需要获取的是title后面的内容，根据页面实际内容，我们编写相应的正则表达式：
title_re=re.compile('<h1 class="core_title_txt " title="(.*?)"')
4. 同理，我们对帖子内容进行"审查元素"，得到内容的源代码

5. 编写相应的正则表达式如下：
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
6. 这样通过urllib2打开页面后，使用上述的正则表达式进行匹配，再对标题和文本内容进行相应的处理即可

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

爬虫是什么全能工程师养成，零基础到实战，全面升级!

爬虫是什么涵盖Python基础编程、Web开发、数据分析等5大热门领域，从入门到实战，爬虫是什么涵盖多领域企业级项目，真实项目全流程开发，6万+手敲代码，全面提升你的实力

class.imooc.com广告

为什么python写的爬虫有时候抓取的数据是乱

您可能关注的内容

其他类似问题

为你推荐：