Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

 我来答
刀玉花函君
2020-01-13 · TA获得超过3.7万个赞
知道大有可为答主
回答量:1.4万
采纳率:27%
帮助的人:756万
展开全部
最简单的办法,不需要任何第三方库,获取网页源代码,进行正则匹配:
import
urllib,re
url
=
"http://www.163.com"
#网页地址
wp
=
urllib.urlopen(url)
#打开连接
content
=
wp.read()
#获取页面内容
m
=
re.match(r"^你的单词$",
content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
老树枝勾琬
2019-07-09 · TA获得超过3.8万个赞
知道大有可为答主
回答量:1.4万
采纳率:29%
帮助的人:867万
展开全部
你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,都是在html文件中存在的内容
统计页面上的单词,必然是要读html源文件的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import
urllib2
import
re
word
=
'你想查找的单词'
urlfile
=
urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http')
#以文件的形式打开一个网页
html
=
urlfile.read()
#从网页文件中读html
wordList
=
re.findall(re.compile(word),
html)
#正则findall
查找所有的单词
print
len(wordList)
#个数re模块记不太清,没试验、试试看,不行再追问
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式