用python抓取的网页保存后为什么乱码？

已知要保存的网页用chardet测出为gb2312，直接用浏览器保存网页一切正常，但当用python中urllib.urlretrieve()来保存后，发现网页乱码，这是... 已知要保存的网页用chardet测出为gb2312，直接用浏览器保存网页一切正常，但当用python中urllib.urlretrieve()来保存后，发现网页乱码，这是什么原因？
另，
content = urllib.urlopen(req).read()
html = unicode(content,'gb2312')这句的unicode()是什么意思？展开

 我来答

7个回答

#热议# 为什么有人显老，有人显年轻？

laoyaotask
推荐于2016-10-21 · TA获得超过343个赞

知道小有建树答主

回答量：330

采纳率：0%

帮助的人：194万

我也去答题访问个人页

关注

展开全部

从你给的代码来是Python2。我下面给一个基于Python3的代码，可以参考一下：

rom urllib.request import urlopen;  
from urllib.parse import quote;  
rawtext=urlopen('http://www.ccnu.edu.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)  
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是，在Python3下面，抓取到的页面默认是byte类型的（通过第4行输出的结果就可以看出来），我们需要根据网页的实际编码进行处理。本例中给的网页使用的是gb2312。所以，我要先以gbk的格式进行解码（gbk包含了gb2312，能够表示更多的汉语字符），解码后实际上得到的就是unicode码了，由于我的控制台编码设置的是utf8，在打印时系统会自动将字符串从unicode转为utf8，所以第6行控制台打印结果正常；第7行写入文件时也要指定文件的编码格式，我这里选择的是utf8，当然用gbk也是一切正常的，因为这个编码设置的是保存文件的编码，而不是原来那个网页内容的编码了。字符串编码和文件编码不是一回事。打开ccnu.txt发现无乱码。

Python2的代码我不熟。

建议你也在代码中添加print 看控制输出是否正常。如果控制台输出正常，则有可能是在保存页面文件时，没有正确指定内容字符串的encode格式。或者把所有gb2312换为gbk再试试。

反正Python2下面极容易出现汉字乱码，如果能理解编码encode和解码decode的含义，了解Python2的字符串处理过程，就可以避免这些问题。

本回答被提问者和网友采纳

已赞过 已踩过<

评论收起

匿名用户
2015-06-09

展开全部

读取的时候赋值到一个变量，可以在调试状态看一下是什么类型的，然后直接写到本地文件。或者在写的时候加encode来转换。

已赞过 已踩过<

评论收起

匿名用户
2015-06-10

展开全部

应该是DOCtype问题吧。

已赞过 已踩过<

评论收起

lucifer_001
2015-06-09 · TA获得超过684个赞

知道小有建树答主

回答量：414

采纳率：0%

帮助的人：415万

我也去答题访问个人页

关注

展开全部

把内容用gb2312解码转成unicode类型。

已赞过 已踩过<

评论收起

匿名用户
2015-06-10

展开全部

你不认识就说是乱码～～讨厌。

已赞过 已踩过<

评论收起

更多回答（5）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

用python抓取的网页保存后为什么乱码？

其他类似问题

为你推荐：