如何爬取html里指定的内容

在python中我想在简历里爬取出:性别,年龄,婚否,电话,工作年限。像在这个html标签里的怎么用正则表达式匹配出来呢?<span>男23岁(1993年3月)4年工作经... 在python中我想在简历里爬取出:性别,年龄,婚否,电话,工作年限。像在这个html标签里的怎么用正则表达式匹配出来呢?

<span>男 23岁(1993年3月) 4年工作经验 大专 未婚</span>
展开
 我来答
z伊凡z
2016-07-14 · TA获得超过229个赞
知道小有建树答主
回答量:184
采纳率:0%
帮助的人:101万
展开全部
我一般爬取时用beautifulsoup与正则结合,这段的话应该用不到正则可以先用beautifulsoup提取出标签中的内容,然后用split相关的方法将空白分隔符分隔的内容分割成列表之后分配给相应的属性
更多追问追答
追问
恩,我明白你的意思,可能是我没讲清楚。如果给的是这段字符串是很容易爬取出来。但是我要从很多份简历中要获取指定的数据。所以不清楚怎么写了。比如我写好的一个:# 期望月薪
expect_pay_get = r'''.*期望月薪:
(.*?)'''
这样我就可以从简历中获取简历里写的期望月薪值。
但是它长像上面那个句子就不知道这怎么匹配了
追答
恩。。。这确实比较困难,如果多份简历的格式是相同的还比较好处理,但你处理的应该是多种格式。。。这样估计只能用正则方式在全文提取一些辨识度比较高的属性了。。实际效率和准确性也都不会很高。
如果你真想做的比较好一点的话估计最多做成半自动化,花时间做一个交互,先分析网页把所有属性分项提取,之后显示一项并让你手动输入相应的属性,这样应该能满足一些基本需要了,之后可以再给你的交互增加功能比如二次正则,属性分隔,个别字替换,关键字识别,格式补全等功能。这其实就是ETL的过程了
以上讲了这么多其实我前不久刚做完这个哈哈哈哈。。。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式