python 用requests和BeautifulSoup捉去网站上的火星文 为什么会乱码?怎么解决?

滒旳丗堺ㄚòひ囨懂����ㄚòひ�懂就是这种... 滒旳丗堺ㄚòひ囨懂 ����ㄚòひ�懂 就是这种 展开
 我来答
新不起浪
2015-09-10 · 做一名合格的环保卫士
新不起浪
采纳数:502 获赞数:2777

向TA提问 私信TA
展开全部

编码问题!

你在网站上右键,查看下源码代码

meta http-equiv="content-type" content="text/html;charset=gbk" />

这个是百度知道,你可以看下你采集的网站的编码,然后用beautifulsoup的时候就需要设置啊

htmlCharset = "GB2312"
soup = BeautifulSoup(respHtml, fromEncoding=htmlCharset)

BeautifulSoup默认检测到的是unicode编码,当html为其他类型编码(非utf-8和asc ii),比如GB2312的话,则需要指定相应的字符编码,BeautifulSoup才能正确解析。

追问

  我已经查看了源码上的编码 确实是GB2312  而且 我之前也写上了字符编码  我有部分中文是可以正常显示的  但是就是那种特殊的火星文才会乱码

  

所以你说的我都解决了  就是想问特殊的火星文那部分怎么解?

推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式