如何爬取html里指定的内容

在python中我想在简历里爬取出：性别，年龄，婚否，电话，工作年限。像在这个html标签里的怎么用正则表达式匹配出来呢？<span>男23岁(1993年3月)4年工作经... 在python中我想在简历里爬取出：性别，年龄，婚否，电话，工作年限。像在这个html标签里的怎么用正则表达式匹配出来呢？

<span>男 23岁(1993年3月) 4年工作经验大专未婚</span> 展开

 我来答

1个回答

#热议# 空调使用不当可能引发哪些疾病？

z伊凡z
2016-07-14 · TA获得超过229个赞

知道小有建树答主

回答量：184

采纳率：0%

帮助的人：101万

我也去答题访问个人页

关注

展开全部

我一般爬取时用beautifulsoup与正则结合，这段的话应该用不到正则可以先用beautifulsoup提取出标签中的内容，然后用split相关的方法将空白分隔符分隔的内容分割成列表之后分配给相应的属性

更多追问追答

追问

恩，我明白你的意思，可能是我没讲清楚。如果给的是这段字符串是很容易爬取出来。但是我要从很多份简历中要获取指定的数据。所以不清楚怎么写了。比如我写好的一个：# 期望月薪
expect_pay_get = r'''.*期望月薪：
     (.*?)'''
这样我就可以从简历中获取简历里写的期望月薪值。
但是它长像上面那个句子就不知道这怎么匹配了

追答

恩。。。这确实比较困难，如果多份简历的格式是相同的还比较好处理，但你处理的应该是多种格式。。。这样估计只能用正则方式在全文提取一些辨识度比较高的属性了。。实际效率和准确性也都不会很高。
如果你真想做的比较好一点的话估计最多做成半自动化，花时间做一个交互，先分析网页把所有属性分项提取，之后显示一项并让你手动输入相应的属性，这样应该能满足一些基本需要了，之后可以再给你的交互增加功能比如二次正则，属性分隔，个别字替换，关键字识别，格式补全等功能。这其实就是ETL的过程了
以上讲了这么多其实我前不久刚做完这个哈哈哈哈。。。

本回答由网友推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何爬取html里指定的内容

其他类似问题

为你推荐：