如何解决用 Beautiful Soup 抓取网页却得到乱码的问题

 我来答

2个回答

#热议# 什么是淋病？哪些行为会感染淋病？

我务而非
2017-04-12 · TA获得超过142个赞

知道小有建树答主

回答量：298

采纳率：0%

帮助的人：149万

我也去答题访问个人页

关注

展开全部

楼上所说的编码问题只是一个方面，使用GB18030确实能够解决。另一个造成乱码的原因是压缩格式。很多规模较大的网站都是以gzip的压缩格式输出页面的，所以在用BS解析之前需要先判断该网页是否经过压缩，如果经过压缩则先进行解压操作。

本回答被提问者采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

就烦条0o
2018-07-06 · 知道合伙人软件行家

就烦条0o
知道合伙人软件行家

采纳数：33315 获赞数：46492

从事多年系统运维，喜欢编写各种小程序和脚本。

向TA提问私信TA

关注

展开全部

可能编码识别错了，建议创建soup对象时手动把正确的编码传过去,国内的网站编码主要是gb2312和utf8，对于大部分非utf8编码中文网站可以用gb18030通吃
>>   encoding = "gb18030"
>>   soup = BeautifulSoup(page, fromEncoding=encoding)

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何解决用 Beautiful Soup 抓取网页却得到乱码的问题

其他类似问题

为你推荐：