
python中如何通过关键字查找到指定的HTML标签
我要获取多分简历信息,但每份简历又有所不一样,没有唯一性不过有几个字是唯一的。我可不可以通过关键字来爬取指定的内容啊?如图:我想通过‘工作职责’这四个字找到下面的<td>...
我要获取多分简历信息,但每份简历又有所不一样,没有唯一性不过有几个字是唯一的。我可不可以通过关键字来爬取指定的内容啊?如图:我想通过‘工作职责’这四个字找到下面的<td>的所有文本,该如何获取呢
展开
1个回答
展开全部
可以使用正则表达式的方法
正则表达式:工作职责:</th>\s+<td>(.+?)</td>
import re
content = "页面内容"
re_1 = re.search('工作职责:</th>\s+<td>(.+?)</td>', content)
if re_1:
print re_1.group(1)
else:
print "not find !"
因为正则表达式有中文 所以要保证你的内容与文本是一个编码
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询