python 使用BeautifulSoup库提取div标签中的文本内容

比如HTML文件中全是这种格式的内容<div><p><spanstyle='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的... 比如HTML文件中全是这种格式的内容

<div><p><span style='font-size:14.0pt'>我从事于教育行业,对于计算机算只了解皮毛,但我会制作简单的课件来补充工作中需要的信息,对于计算机它让我们方便了生活,愉乐了生活,也是说生活中不能缺少计算机与计算思维</span><br><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom 2014/09/10 10:14</span></p></div>

如何使用BeautifulSoup将这段文本内容提取出来呢?
如果配合正则表达式又该怎样做呢?
谢谢
展开
 我来答 举报
老夭来了
推荐于2017-12-15 · 知道合伙人软件行家
老夭来了
知道合伙人软件行家
采纳数:1806 获赞数:8100
2008年从事软件开发,拥有多年的python,php,linux工作经验,发布过多个python,php的开源项目。

向TA提问 私信TA
展开全部

因为你的html不是合法的xml格式,标签没有成对出现,只能用html解析器

1
2
3
4
5
6
7
8
from bs4 import BeautifulSoup
 
= """
</span><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom    2014/09/10 10:14</span></p></div>
"""
soup = BeautifulSoup(s, "html.parser")
print soup
print soup.get_text()

如果你想用正则的话,只要把标签匹配掉就可以了

1
2
3
4
5
6
7
8
import re
 
= """
</span><span style= 'font-size:12.0pt;color:#CC3399'>714659079qqcom    2014/09/10 10:14</span></p></div>
"""
dr = re.compile(r'<[^>]+>', re.S)
dd = dr.sub('', s)
print dd

如果解决了您的问题请采纳!
如果未解决请继续追问

更多追问追答
追问
恩,这个确实能解决
不过要是这个HTML文件中有很多条这样的
每一条的内容我要能取出来单独处理,应该怎么存储呢?
是存到列表或者字典还是怎样呢?
谢谢
追答
你是哈工大的老师?
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式