怎样在python中提取html源文件中的内容（去掉标签后的纯网页的内容）？求大神指导，谢谢！

我已经得到html源文件了，在python中怎样提取其中的除了标签后的内容呢？最好有源码，谢谢了！！... 我已经得到html源文件了，在python中怎样提取其中的除了标签后的内容呢？最好有源码，谢谢了！！展开

 我来答

1个回答

梦里寻你我他
2013-05-22 · TA获得超过2199个赞

知道大有可为答主

回答量：2171

采纳率：42%

帮助的人：1196万

关注

展开全部

用正则把尖括号的标记都替换为""

\<\w*\>[\s\S]*\<\/\w*\>

追问

我想读取网页中的单词的，用正则具体怎样操作的呢？

本回答被提问者采纳

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

其他类似问题