python 使用BeautifulSoup库提取div标签中的文本内容
比如HTML文件中全是这种格式的内容<div><p><spanstyle='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的...
比如HTML文件中全是这种格式的内容
<div><p><span style='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的课件来补充工作中需要的信息,对于计算机它让我们方便了生活,愉乐了生活,也是说生活中不能缺少计算机与计算思维</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
如何使用BeautifulSoup将这段文本内容提取出来呢?
如果配合正则表达式又该怎样做呢?
谢谢 展开
<div><p><span style='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的课件来补充工作中需要的信息,对于计算机它让我们方便了生活,愉乐了生活,也是说生活中不能缺少计算机与计算思维</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
如何使用BeautifulSoup将这段文本内容提取出来呢?
如果配合正则表达式又该怎样做呢?
谢谢 展开
推荐于2017-12-15 · 知道合伙人软件行家
老夭来了
知道合伙人软件行家
向TA提问 私信TA
知道合伙人软件行家
采纳数:1806
获赞数:8100
2008年从事软件开发,拥有多年的python,php,linux工作经验,发布过多个python,php的开源项目。
向TA提问 私信TA
关注
展开全部
因为你的html不是合法的xml格式,标签没有成对出现,只能用html解析器
from bs4 import BeautifulSoup
s = """
</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
soup = BeautifulSoup(s, "html.parser")
print soup
print soup.get_text()
如果你想用正则的话,只要把标签匹配掉就可以了
import re
s = """
</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>
"""
dr = re.compile(r'<[^>]+>', re.S)
dd = dr.sub('', s)
print dd
如果解决了您的问题请采纳!
如果未解决请继续追问
更多追问追答
追问
恩,这个确实能解决
不过要是这个HTML文件中有很多条这样的
每一条的内容我要能取出来单独处理,应该怎么存储呢?
是存到列表或者字典还是怎样呢?
谢谢
追答
你是哈工大的老师?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询