python 正则如何抓取 <a></a> 中 href 属性和标签里的内容?
2个回答
展开全部
import re
pattern = '<a.*?href="(.+)".*?>(.*?)</a>'
with open("test.html", "r") as fp:
for line in fp:
ret = re.search(pattern, line)
if ret:
for x in ret.groups(): print x
不知道具体格式是怎样的,我这里也就简单举个例子。
groups获取到的就是正则pattern里面( )中的内容,以元组形式返回。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询