python爬虫,读取本地html时编码报错:UnicodeDecodeError: 'ascii' codec can't decode
要解析的文件已经下载作为了excel文件,但是如果直接用python读excel文件好像很卡?想转为html,通过beautifulsoup来提取想要的信息,但是一直报错...
要解析的文件已经下载作为了excel文件,但是如果直接用python读excel文件好像很卡?想转为html,通过beautifulsoup来提取想要的信息,但是一直报错UnicodeDecodeError: 'ascii' codec can't decode用的是python3.6 试了大家说的什么加utf-8 gbk都没用import sysreload(sys)也没用,而且貌似3.6还没了reload总之就是编程小白根本都不知道问题出在哪里┑( ̄Д  ̄)┍课程作业让人头大,已经研究一天了都没有下文,故此来求教大神们~~或者说有什么更好地提取信息的方法也请大家赐教,其实在想都已经把原始数据下到excel里了,是不是有更简单的数据提取方法呢
展开
3个回答
2017-11-05
展开全部
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
python3 区分了 unicode str 和 byte arrary,并且默认编码不再是 ascii
关于编码问题的终极解决方案:
在python的Lib\site-packages文件夹下新建一个sitecustomize.py
文件,输入:
import sys
sys.setdefaultencoding('gb2312')
这里要注意一点是:这里面你可以设置GBK或者utf8 或者其他类型的编码格式,不一定非要gb2312,主要看你操作的环境需要什么编码格式
python3 区分了 unicode str 和 byte arrary,并且默认编码不再是 ascii
关于编码问题的终极解决方案:
在python的Lib\site-packages文件夹下新建一个sitecustomize.py
文件,输入:
import sys
sys.setdefaultencoding('gb2312')
这里要注意一点是:这里面你可以设置GBK或者utf8 或者其他类型的编码格式,不一定非要gb2312,主要看你操作的环境需要什么编码格式
追问
追问一下,我电脑里装了2.7和3.6,好像找不到您所说的文件夹.......亦或是我直接在2.7里新建这个py文件也一样有用?或者是直接卸载掉2.7??
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询