python爬虫,读取本地html时编码报错:UnicodeDecodeError: 'ascii' codec can't decode

要解析的文件已经下载作为了excel文件,但是如果直接用python读excel文件好像很卡?想转为html,通过beautifulsoup来提取想要的信息,但是一直报错... 要解析的文件已经下载作为了excel文件,但是如果直接用python读excel文件好像很卡?想转为html,通过beautifulsoup来提取想要的信息,但是一直报错UnicodeDecodeError: 'ascii' codec can't decode用的是python3.6 试了大家说的什么加utf-8 gbk都没用import sysreload(sys)也没用,而且貌似3.6还没了reload总之就是编程小白根本都不知道问题出在哪里┑( ̄Д  ̄)┍课程作业让人头大,已经研究一天了都没有下文,故此来求教大神们~~或者说有什么更好地提取信息的方法也请大家赐教,其实在想都已经把原始数据下到excel里了,是不是有更简单的数据提取方法呢 展开
 我来答
匿名用户
2017-11-05
展开全部
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

python3 区分了 unicode str 和 byte arrary,并且默认编码不再是 ascii

关于编码问题的终极解决方案:
在python的Lib\site-packages文件夹下新建一个sitecustomize.py
文件,输入:
import sys
sys.setdefaultencoding('gb2312')

这里要注意一点是:这里面你可以设置GBK或者utf8 或者其他类型的编码格式,不一定非要gb2312,主要看你操作的环境需要什么编码格式
追问
追问一下,我电脑里装了2.7和3.6,好像找不到您所说的文件夹.......亦或是我直接在2.7里新建这个py文件也一样有用?或者是直接卸载掉2.7??
tufeididi007
2017-11-05 · TA获得超过2125个赞
知道大有可为答主
回答量:2698
采纳率:76%
帮助的人:1233万
展开全部
有可能是存在其他无法解码的东西。。。比如emoji 之类的。
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
徐晓龙老婆
2017-11-04 · TA获得超过553个赞
知道小有建树答主
回答量:614
采纳率:53%
帮助的人:138万
展开全部
保证你本地的文件编码是utf8,不是的话手动改下
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
收起 更多回答(1)
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式