python爬虫，读取本地html时编码报错：UnicodeDecodeError: 'ascii' codec can't decode

要解析的文件已经下载作为了excel文件，但是如果直接用python读excel文件好像很卡？想转为html，通过beautifulsoup来提取想要的信息，但是一直报错... 要解析的文件已经下载作为了excel文件，但是如果直接用python读excel文件好像很卡？想转为html，通过beautifulsoup来提取想要的信息，但是一直报错UnicodeDecodeError: 'ascii' codec can't decode用的是python3.6 试了大家说的什么加utf-8 gbk都没用import sysreload(sys)也没用，而且貌似3.6还没了reload总之就是编程小白根本都不知道问题出在哪里┑(￣Д ￣)┍课程作业让人头大，已经研究一天了都没有下文，故此来求教大神们~~或者说有什么更好地提取信息的方法也请大家赐教，其实在想都已经把原始数据下到excel里了，是不是有更简单的数据提取方法呢展开

 我来答

3个回答

#热议# 上班途中天气原因受伤算工伤吗？

匿名用户
2017-11-05

展开全部

Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。你不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。然后，你仅仅需要说明一下原始编码方式就可以了。

python3 区分了 unicode str 和 byte arrary，并且默认编码不再是 ascii

关于编码问题的终极解决方案：
在python的Lib\site-packages文件夹下新建一个sitecustomize.py
文件，输入：
import sys
sys.setdefaultencoding('gb2312')

这里要注意一点是：这里面你可以设置GBK或者utf8 或者其他类型的编码格式，不一定非要gb2312，主要看你操作的环境需要什么编码格式

追问

追问一下，我电脑里装了2.7和3.6，好像找不到您所说的文件夹.......亦或是我直接在2.7里新建这个py文件也一样有用？或者是直接卸载掉2.7？？

本回答由提问者推荐

已赞过 已踩过<

评论收起

tufeididi007
2017-11-05 · TA获得超过2125个赞

知道大有可为答主

回答量：2698

采纳率：76%

帮助的人：1233万

我也去答题访问个人页

关注

展开全部

有可能是存在其他无法解码的东西。。。比如emoji 之类的。

已赞过 已踩过<

评论收起

徐晓龙老婆
2017-11-04 · TA获得超过553个赞

知道小有建树答主

回答量：614

采纳率：53%

帮助的人：138万

我也去答题访问个人页

关注

展开全部

保证你本地的文件编码是utf8，不是的话手动改下

已赞过 已踩过<

评论收起

更多回答（1）

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python爬虫，读取本地html时编码报错：UnicodeDecodeError: 'ascii' codec can't decode

其他类似问题

为你推荐：