怎样在python中提取html源文件中的内容(去掉标签后的纯网页的内容)?求大神指导,谢谢!
我已经得到html源文件了,在python中怎样提取其中的除了标签后的内容呢?最好有源码,谢谢了!!...
我已经得到html源文件了,在python中怎样提取其中的除了标签后的内容呢?最好有源码,谢谢了!!
展开
1个回答
展开全部
用正则把尖括号的标记都替换为""
\<\w*\>[\s\S]*\<\/\w*\>
\<\w*\>[\s\S]*\<\/\w*\>
追问
我想读取网页中的单词的,用正则具体怎样操作的呢?
本回答被提问者采纳
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询