python使用httplib模块等到网页内容后怎么把标签去除?

 我来答

4个回答

#热议# 海关有哪些禁运商品？查到后怎么办？

想当主语的副词
2015-02-05 · 知道合伙人教育行家

想当主语的副词
知道合伙人教育行家

采纳数：2397 获赞数：31053

于2014年获取家教资格证、教师资格证，毕业论文“百优论文”

向TA提问私信TA

关注

展开全部

"试验以下方法：
1）空格怎么替换掉
2）排版缩进怎么处理
3）各种标签需要做特殊处理，比如<h1> <p>
4）表格排版
5）css处理
当然，也可以仅仅简单的用下面的正则表达式（这样会留有一部分问题没有处理）：
html=re.sub(""(?isu)<[^>]+>"","" "",html)
这样就可以将标签去掉。效但效果肯定是不理想的。
注：在其过程中只需要引入import re模版即可。"

已赞过 已踩过<

评论收起

bdwisyou7d
2013-03-21 · TA获得超过1.3万个赞

知道大有可为答主

回答量：3774

采纳率：81%

帮助的人：1036万

我也去答题访问个人页

关注

展开全部

有些复杂。需要试验。
1.空格怎么替换掉
2.排版缩进怎么处理
3.各种标签需要做特殊处理，比如<h1> <p>
4.表格排版
5.css处理

如果仅仅简单的用下面的正则表达式也可以。不过，你会发现还有好多问题没有处理

html=re.sub("(?isu)<[^>]+>"," ",html)
这样一句话就可以将标签去掉。效果肯定是不理想的。不过你试试看。

追问

要引入那几个模块？ 谢谢

追答

import re就可以了。

本回答被提问者采纳

已赞过 已踩过<

评论收起

wanghan519
2013-03-21 · TA获得超过7820个赞

知道小有建树答主

回答量：1285

采纳率：60%

帮助的人：529万

我也去答题访问个人页

关注

展开全部

正则表达式、Beautiful Soup都好，前者自己动手，后者方便

已赞过 已踩过<

评论收起

匿名用户
2013-03-21

展开全部

用BeautifulSoup

import bs4
#httplib 得到html...
#...
soup = bs4.BeautifulSoup(html)
txt = soup.get_text()

已赞过 已踩过<

评论收起

更多回答（2）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python使用httplib模块等到网页内容后怎么把标签去除?

其他类似问题

为你推荐：