用python抓取的网页保存后为什么乱码?

已知要保存的网页用chardet测出为gb2312,直接用浏览器保存网页一切正常,但当用python中urllib.urlretrieve()来保存后,发现网页乱码,这是... 已知要保存的网页用chardet测出为gb2312,直接用浏览器保存网页一切正常,但当用python中urllib.urlretrieve()来保存后,发现网页乱码,这是什么原因?
另,
content = urllib.urlopen(req).read()
html = unicode(content,'gb2312')这句的unicode()是什么意思?
展开
 我来答
laoyaotask
推荐于2016-10-21 · TA获得超过343个赞
知道小有建树答主
回答量:330
采纳率:0%
帮助的人:194万
展开全部

从你给的代码来是Python2。我下面给一个基于Python3的代码,可以参考一下:

rom urllib.request import urlopen;  
from urllib.parse import quote;  
rawtext=urlopen('http://www.ccnu.edu.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)  
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是,在Python3下面,抓取到的页面默认是byte类型的(通过第4行输出的结果就可以看出来),我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以,我要先以gbk的格式进行解码(gbk包含了gb2312,能够表示更多的汉语字符),解码后实际上得到的就是unicode码了,由于我的控制台编码设置的是utf8,在打印时系统会自动将字符串从unicode转为utf8,所以第6行控制台打印结果正常;第7行写入文件时也要指定文件的编码格式,我这里选择的是utf8,当然用gbk也是一切正常的,因为这个编码设置的是保存文件的编码,而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常,则有可能是在保存页面文件时,没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码,如果能理解编码encode和解码decode的含义,了解Python2的字符串处理过程,就可以避免这些问题。

本回答被提问者和网友采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2015-06-09
展开全部
读取的时候赋值到一个变量,可以在调试状态看一下是什么类型的,然后直接写到本地文件。或者在写的时候加encode来转换。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2015-06-10
展开全部
应该是DOCtype问题吧。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
lucifer_001
2015-06-09 · TA获得超过684个赞
知道小有建树答主
回答量:414
采纳率:0%
帮助的人:415万
展开全部
把内容用gb2312解码转成unicode类型。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
匿名用户
2015-06-10
展开全部
你不认识就说是乱码~~ 讨厌。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(5)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式