Python中怎样获取一网页上的内容?我想通过python读取网页上的各个不同的单词和分别出现的次数
我是要读取给定网址的内容,不是本地的html文件的内容,还有就是我不是要读取网页的源码文件(.html文件),而是想读取浏览器呈现给客户端用户的内容(就平时打开浏览器打开...
我是要读取给定网址的内容,不是本地的html文件的内容,还有就是我不是要读取网页的源码文件(.html文件),而是想读取浏览器呈现给客户端用户的内容(就平时打开浏览器打开一个网页显示的内容),另外我想统计页面上的单词和每个单词出现的次数(不需要汉子的数目),初学python没经验,跪求大神指导哈,最好能提供下源码哈,多谢了!!
展开
3个回答
展开全部
你好
首先,浏览器显示给用户的内容完全是根据html源码来的、所以,你想获取的一切浏览器显示的内容,铅伏源都是在html文件中存在的内厅扰容
统计页面上的单词,必然是要读html源文件槐态的
可以使用urllib2库,以及re库来进行匹配查找,代码如下:
import urllib2
import re
word = '你想查找的单词'
urlfile = urllib2.urlopen('你要打开的网址内容,记住要带上协议前缀,比如http') #以文件的形式打开一个网页
html = urlfile.read() #从网页文件中读html
wordList = re.findall(re.compile(word), html) #正则findall 查找所有的单词
print len(wordList) #个数
re模块记不太清,没试验、试试看,不行再追问
2013-05-21
展开全部
1.新段坦宴读取源码,
2.提取单词(范围信薯a-z,A-Z),
3.count 个数
C++ 使用stl 容器处理很容易. python比 C++ 高级很多,相信有这样的握银分隔函数,不用一个一个字符对比分隔. ,相信更加容易
2.提取单词(范围信薯a-z,A-Z),
3.count 个数
C++ 使用stl 容器处理很容易. python比 C++ 高级很多,相信有这样的握银分隔函数,不用一个一个字符对比分隔. ,相信更加容易
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
展开全部
最简单的办法,不需要任何第三方库,获取网页源代码,进行正知喊则匹和猛桐配:
import urllib,re
url = "http://www.163.com" #网页地址
wp = urllib.urlopen(url) #打开连唤坦接
content = wp.read() #获取页面内容
m = re.match(r"^你的单词$", content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
import urllib,re
url = "http://www.163.com" #网页地址
wp = urllib.urlopen(url) #打开连唤坦接
content = wp.read() #获取页面内容
m = re.match(r"^你的单词$", content)
len(m)
m就是匹配到所有单词的列表,len(m)就是该单词的个数了
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询