python 正则如何抓取 <a></a> 中 href 属性和标签里的内容?

需求是这样的href中的内容作为第一个分组要求被得到<a>中的内容作为第二个分组被得到... 需求是这样的 href 中的内容作为第一个分组要求被得到 <a>中的内容作为第二个分组被得到展开

 我来答

2个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

百度网友5311d79
推荐于2016-01-08 · TA获得超过1.9万个赞

知道大有可为答主

回答量：6356

采纳率：71%

帮助的人：3202万

我也去答题访问个人页

关注

展开全部

import re
pattern = '<a.*?href="(.+)".*?>(.*?)</a>'
with open("test.html", "r") as fp:
    for line in fp:
        ret = re.search(pattern, line)
        if ret:
            for x in ret.groups(): print x

不知道具体格式是怎样的，我这里也就简单举个例子。

groups获取到的就是正则pattern里面( )中的内容，以元组形式返回。

已赞过 已踩过<

评论收起

Coo_boi
2014-08-13 · TA获得超过1333个赞

知道大有可为答主

回答量：2209

采纳率：50%

帮助的人：241万

我也去答题访问个人页

关注

展开全部

<a.*?href="([^"]*)".*?>([\S\s]*?)</a>

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 正则如何抓取 <a></a> 中 href 属性和标签里的内容?

其他类似问题

为你推荐：