怎么用Python读取本地网站的内容

要用Python统计网页上单词出现的次数,直接打开只能得到源代码... 要用Python统计网页上单词出现的次数,直接打开只能得到源代码 展开
 我来答
Lovesoo
推荐于2016-08-18 · TA获得超过2385个赞
知道小有建树答主
回答量:654
采纳率:66%
帮助的人:415万
展开全部

思路如下:

使用urllib2库,打开页面,获取页面内容,再用正则表达式提取需要的数据就可以了。

下面给你个示例代码供参考,从百度贴吧抓取帖子内容,并保存在文件中。


# -*- coding:utf-8 -*-
import urllib2
import re
url='

page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('<a href=.*?>|</a>|<img.*?>')
br_re=re.compile('<br>')
title_re=re.compile('<h1 class="core_title_txt  " title="(.*?)"')
content_re=re.compile('<div id="post_content_\d*" class="d_post_content j_d_post_content ">(.*?)</div>')
title=re.search(title_re,page)
title=title.group(1).replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('<','').replace('|','')  
content=re.findall(content_re,page)
with open('%s.txt'%title,'w') as f:
    for i in content:
        i=re.sub(none_re, '', i)
        i=re.sub(br_re, '\n', i)        
        f.write(i.encode('utf-8').strip()+'\n')
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式