如何提取正文内容 BeautifulSoup的输出

 我来答

1个回答

#合辑# 面试问优缺点怎么回答最加分？

啥名字好呢呢呢
推荐于2016-05-10 · TA获得超过28.3万个赞

知道顶级答主

回答量：5.9万

采纳率：96%

帮助的人：2.1亿

我也去答题访问个人页

关注

展开全部

　　创建一个新网站，一开始没有内容，通常需要抓取其他人的网页内容，一般的操作步骤如下：
　　根据url下载网页内容，针对每个网页的html结构特征，利用正则表达式，或者其他的方式，做文本解析，提取出想要的正文。
　　为每个网页写特征分析这个还是太耗费开发的时间，我的思路是这样的。
　　Python的BeautifulSoup包大家都知道吧，
　　import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html)

　　利用这个包先把html里script，style给清理了：
　　[script.extract() for script in soup.findAll('script')]
[style.extract() for style in soup.findAll('style')]

　　清理完成后，这个包有一个prettify()函数，把代码格式给搞的标准一些：
　　soup.prettify()

　　然后用正则表达式，把所有的HTML标签全部清理了：
　　reg1 = re.compile("<[^>]*>")
content = reg1.sub('',soup.prettify())

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何提取正文内容 BeautifulSoup的输出

其他类似问题

为你推荐：