python 正则如何提取<li>标签?

如图注释的为<li>标签内容,但输出报错为<_sre.SRE_Patternobjectat0x0000000003038450>该如何处理?... 如图 注释的为<li>标签内容,但输出报错为<_sre.SRE_Pattern object at 0x0000000003038450>该如何处理? 展开
 我来答
wenjie1024
2017-04-25 · TA获得超过2381个赞
知道大有可为答主
回答量:1737
采纳率:72%
帮助的人:858万
展开全部
findDiv = re.findall(r'<li>\s*<div class="viewimg">(.*?)</li>', h, re.S)

或(import requests用这个模块的话会更方便)

pattern = re.compile(r'<li>\s*<div class="viewimg">(.*?)</li>', re.S)
findDiv = pattern.findall(html)


In [1]: import re

In [2]: h = '''<li>

...: <div class="viewimg"><sdfsdf>

...: sdfsdf

...: </li>'''


In [3]: findDiv = re.findall(r'<li>\s*<div class="viewimg">(.*?)</li>', h, re.S)

...: 

In [7]: pattern = re.compile(r'<li>\s*<div class="viewimg">(.*?)</li>', re.S)


In [8]: pattern.findall(h)

Out[8]: ['<sdfsdf>\nsdfsdf\n']

追问

谢谢  可以了,但中文变成了这个。我在输出整个html时中文格式是utf-8

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式