python 用requests和BeautifulSoup捉去网站上的火星文为什么会乱码？怎么解决？

滒旳丗堺ㄚòひ囨懂��ㄚòひ�懂就是这种... 滒旳丗堺ㄚòひ囨懂 ��ㄚòひ�懂就是这种展开

 我来答

1个回答

新不起浪
2015-09-10 · 做一名合格的环保卫士

新不起浪

采纳数：502 获赞数：2777

关注

展开全部

编码问题！

你在网站上右键，查看下源码代码

meta http-equiv="content-type" content="text/html;charset=gbk" />

这个是百度知道，你可以看下你采集的网站的编码，然后用beautifulsoup的时候就需要设置啊

htmlCharset = "GB2312"
soup = BeautifulSoup(respHtml, fromEncoding=htmlCharset)

BeautifulSoup默认检测到的是unicode编码，当html为其他类型编码（非utf-8和asc ii），比如GB2312的话，则需要指定相应的字符编码，BeautifulSoup才能正确解析。

追问

　　我已经查看了源码上的编码确实是GB2312 而且我之前也写上了字符编码我有部分中文是可以正常显示的但是就是那种特殊的火星文才会乱码

所以你说的我都解决了就是想问特殊的火星文那部分怎么解？

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python 用requests和BeautifulSoup捉去网站上的火星文 为什么会乱码？怎么解决？