python 用requests和BeautifulSoup捉去网站上的火星文 为什么会乱码?怎么解决?
展开全部
编码问题!
你在网站上右键,查看下源码代码
meta http-equiv="content-type" content="text/html;charset=gbk" />
这个是百度知道,你可以看下你采集的网站的编码,然后用beautifulsoup的时候就需要设置啊
htmlCharset = "GB2312"
soup = BeautifulSoup(respHtml, fromEncoding=htmlCharset)
BeautifulSoup默认检测到的是unicode编码,当html为其他类型编码(非utf-8和asc ii),比如GB2312的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询