Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数

我是要读取给定网址的内容,不是本地的html文件的内容,还有就是我不是要读取网页的源码文件(.html文件),而是想读取浏览器呈现给客户端用户的内容(就平时打开浏览器打开... 我是要读取给定网址的内容,不是本地的html文件的内容,还有就是我不是要读取网页的源码文件(.html文件),而是想读取浏览器呈现给客户端用户的内容(就平时打开浏览器打开一个网页显示的内容),另外我想统计页面上的单词和每个单词出现的次数(不需要汉子的数目),初学python没经验,跪求大神指导哈,最好能提供下源码哈,多谢了!! 展开
 我来答
手速抽风
推荐于2017-10-15 · TA获得超过420个赞
知道小有建树答主
回答量:176
采纳率:0%
帮助的人:83.9万
展开全部

你好

首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,铅伏源都是在html文件中存在的内厅扰容

统计页面上的单词,必然是要读html源文件槐态的

可以使用urllib2库,以及re库来进行匹配查找,代码如下:

import urllib2
import re
word = '你想查找的单词'
urlfile = urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http') #以文件的形式打开一个网页
html = urlfile.read() #从网页文件中读html
wordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词
print len(wordList) #个数

re模块记不太清,没试验、试试看,不行再追问

匿名用户
2013-05-21
展开全部
1.新段坦宴读取源码,
2.提取单词(范围信薯a-z,A-Z),
3.count 个数

C++ 使用stl 容器处理很容易. python比 C++ 高级很多,相信有这样的握银分隔函数,不用一个一个字符对比分隔. ,相信更加容易
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
编程小菜鸟9
推荐于2017-09-04 · TA获得超过237个赞
知道小有建树答主
回答量:183
采纳率:100%
帮助的人:142万
展开全部
最简单的办法,不需要任何第三方库,获取网页源代码,进行正知喊则匹和猛桐配:
import urllib,re
url = "http://www.163.com" #网页地址
wp = urllib.urlopen(url) #打开连唤坦接
content = wp.read() #获取页面内容
m = re.match(r"^你的单词$", content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式