python使用httplib模块等到网页内容后怎么把标签去除?
2015-02-05 · 知道合伙人教育行家
关注
展开全部
"试验以下方法:
1)空格怎么替换掉
2)排版缩进怎么处理
3)各种标签需要做特殊处理,比如<h1> <p>
4)表格排版
5)css处理
当然,也可以仅仅简单的用下面的正则表达式(这样会留有一部分问题没有处理):
html=re.sub(""(?isu)<[^>]+>"","" "",html)
这样就可以将标签去掉。效但效果肯定是不理想的。
注:在其过程中只需要引入import re模版即可。"
1)空格怎么替换掉
2)排版缩进怎么处理
3)各种标签需要做特殊处理,比如<h1> <p>
4)表格排版
5)css处理
当然,也可以仅仅简单的用下面的正则表达式(这样会留有一部分问题没有处理):
html=re.sub(""(?isu)<[^>]+>"","" "",html)
这样就可以将标签去掉。效但效果肯定是不理想的。
注:在其过程中只需要引入import re模版即可。"
展开全部
有些复杂。需要试验。
1.空格怎么替换掉
2.排版缩进怎么处理
3.各种标签需要做特殊处理,比如<h1> <p>
4.表格排版
5.css处理
如果仅仅简单的用下面的正则表达式也可以。不过,你会发现还有好多问题没有处理
html=re.sub("(?isu)<[^>]+>"," ",html)
这样一句话就可以将标签去掉。效果肯定是不理想的。不过你试试看。
1.空格怎么替换掉
2.排版缩进怎么处理
3.各种标签需要做特殊处理,比如<h1> <p>
4.表格排版
5.css处理
如果仅仅简单的用下面的正则表达式也可以。不过,你会发现还有好多问题没有处理
html=re.sub("(?isu)<[^>]+>"," ",html)
这样一句话就可以将标签去掉。效果肯定是不理想的。不过你试试看。
追问
要引入那几个模块? 谢谢
追答
import re就可以了。
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
正则表达式、Beautiful Soup都好,前者自己动手,后者方便
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
2013-03-21
展开全部
用BeautifulSoup
import bs4
#httplib 得到html...
#...
soup = bs4.BeautifulSoup(html)
txt = soup.get_text()
import bs4
#httplib 得到html...
#...
soup = bs4.BeautifulSoup(html)
txt = soup.get_text()
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询