Python中怎样获取一网页上的内容？我想通过python读取网页上的各个不同的单词和分别出现的次数

我是要读取给定网址的内容，不是本地的html文件的内容，还有就是我不是要读取网页的源码文件（.html文件），而是想读取浏览器呈现给客户端用户的内容（就平时打开浏览器打开... 我是要读取给定网址的内容，不是本地的html文件的内容，还有就是我不是要读取网页的源码文件（.html文件），而是想读取浏览器呈现给客户端用户的内容（就平时打开浏览器打开一个网页显示的内容），另外我想统计页面上的单词和每个单词出现的次数（不需要汉子的数目），初学python没经验，跪求大神指导哈，最好能提供下源码哈，多谢了！！展开

 我来答

3个回答

#热议# 在购买新能源车时，要注意哪些？

手速抽风
推荐于2017-10-15 · TA获得超过420个赞

知道小有建树答主

回答量：176

采纳率：0%

帮助的人：83.9万

我也去答题访问个人页

关注

展开全部

你好

首先，浏览器显示给用户的内容完全是根据html源码来的、所以，你想获取的一切浏览器显示的内容，铅伏源都是在html文件中存在的内厅扰容

统计页面上的单词，必然是要读html源文件槐态的

可以使用urllib2库，以及re库来进行匹配查找，代码如下：

import urllib2
import re
word = '你想查找的单词'
urlfile = urllib2.urlopen('你要打开的网址内容，记住要带上协议前缀，比如http') #以文件的形式打开一个网页
html = urlfile.read() #从网页文件中读html
wordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词
print len(wordList) #个数

re模块记不太清，没试验、试试看，不行再追问

已赞过 已踩过<

评论收起

匿名用户
2013-05-21

展开全部

1.新段坦宴读取源码，
2.提取单词（范围信薯a-z，A-Z），
3.count 个数

C++ 使用stl 容器处理很容易. python比 C++ 高级很多,相信有这样的握银分隔函数,不用一个一个字符对比分隔. ,相信更加容易

已赞过 已踩过<

评论收起

编程小菜鸟9
推荐于2017-09-04 · TA获得超过237个赞

知道小有建树答主

回答量：183

采纳率：100%

帮助的人：142万

我也去答题访问个人页

关注

展开全部

最简单的办法，不需要任何第三方库，获取网页源代码，进行正知喊则匹和猛桐配：
import urllib,re
url = "http://www.163.com" #网页地址
wp = urllib.urlopen(url) #打开连唤坦接
content = wp.read() #获取页面内容
m = re.match(r"^你的单词$", content)
len（m）
m就是匹配到所有单词的列表，len（m）就是该单词的个数了

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

python怎么读文件_Kimi-AI写作-20W超长文本处理

python怎么读文件_选Kimi无广告无会员_免登录就能用!AI智能写作、文案、翻译、编程、全能工具，能搜能聊，尽在Kimi~

kimi.moonshot.cn广告

【羽山数据】综合数据资产服务平台

数据治理、数据入表、数据确权、数据资产登记、数据资产融资、数智融合，尽在羽山数据资产服务平台

www.yushanshuju.com广告

Python中怎样获取一网页上的内容？我想通过python读取网页上的各个不同的单词和分别出现的次数

您可能关注的内容

其他类似问题

为你推荐：