Python+requests 爬取网站遇到中文乱码怎么办

 我来答
数阔八爪鱼采集器丨RPA机器人
2023-08-04 · 前往八爪鱼RPA应用市场,免费获取机器人
数阔八爪鱼采集器丨RPA机器人
向TA提问
展开全部
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,可以帮助您快速采集网站数据。对于Python+requests爬取网站遇到中文乱码的问题,您可以:1. 设置编码:在使用requests库发送请求时,可以通过设置`response.encoding`来指定网页的编码方式,例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码,避免中文乱码问题。2. 使用自动识别功能:八爪鱼采集器提供了智能识别功能,可以自动识别网页的结构,并进行相应的采集操作。3. 自定义解码规则:如果智能识别功能无法解决中文乱码问题,可以手动设置解码规则。在采集任务设置中,可以通过设置解码规则,指定网页的编码方式,以确保正确解码中文内容。八爪鱼采集器为用户准备了一系列简洁易懂的教程,帮助大家快速掌握采集技巧,轻松应对各类网站数据采集,请前往官网教程与帮助了解更多详情。
从空去听8
2017-11-04 · TA获得超过7440个赞
知道大有可为答主
回答量:6907
采纳率:93%
帮助的人:5591万
展开全部

最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml
这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速,简单的定位元素并获取信息。下面进入正题

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便,一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

  • url = 'h.com/'

  • req = requests.get(url)

  • print(req.text)

  • tree = html.fromstring(req.text)

  • print(tree.xpath("//h1[@class='title']/text()"))

  •     上面的代码段起作用的也就3行(2,4,5)代码就获取到我们想要的内容。当然还要导入一系列的包,比如说requests、lxml、html等。当然由于ht.com/是英文网站,不存在中文乱码问题。

  • 1.2 麻烦的开始

  •     本来当时的想法是写一些基础模块,方便之后开发的时候调用,减少重复性工作。为了保证代码在任何情况下都不会出现bug,所以想着用同样的代码爬取中文网站获取里面的文字

  •     修改上面代码中的两行代码:

  • 点击(此处)折叠或打开

  • url = 'hemierleague/index.shtml'

  • print(tree.xpath("//span[@class='sec_blk_title']/text()"))

  •     运行程序可以发现,在语句print(req.text)输出的内容中,中文字体已经是乱码了。最后的结果输出是['?????©è§\x86é?\x91', '??\x80?\x9c\x9f?\x9b\x9eé??']

  • 2 乱码解决办法

  • 2.1 试错

  •     由于之前爬取csdn上一个网页没有出现乱码问题,但是在sina体育网站上出现了乱码,所以当时以为不是编码问题,以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性,但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。




  • 总结:参考上述文献,结果还是没有解决问题,但是就考虑是不是方向错了。不过这部分工作也没有白做,很多网站返回数据都会有压缩问题,之后的工作中也能用上。


  • 2.2 乱码终极解决办法

  •     后来查阅官方文档中response-content相关内容,说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测,前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了,如果你创建了自己的编码,并使用codecs 模块进行注册,你就可以轻松地使用这个解码器名称作为 r.encoding 的值, 然后由Requests来为你处理编码。(自己没有使用codecs模块,所以这里不贴代码了,不过按官方的说法使用codecs模块是最简单的一种方式。)

  •     另一份官方文档片段明确说了reponse编码处理方式:

  •         Requests遵循RFC标准,编码使用ISO-8859-1 。

  •         只有当HTTP头部不存在明确指定的字符集,并且 Content-Type 头部字段包含 text 值之时, Requests才不去猜测编码方式。


  •     现在直接上实验结果,在原始代码中添加以下代码片段:

  • 点击(此处)折叠或打开

  • print(req.headers['content-type'])

  • print(req.encoding)

  • print(req.apparent_encoding)

  • print(requests.utils.get_encodings_from_content(page_content.text))

  • 输出结果分别是:

  •     text/html

  •     ISO-8859-1#response内容的编码

  •     utf-8#response headers里设置的编码

  •     ['utf-8']#response返回的html header标签里设置的编码

  •     返回的内容是采用‘ISO-8859-1’,所以出现了乱码,而实际上我们应该采用‘utf-8’编码

  •         

  •     总结:当response编码是‘ISO-8859-1’,我们应该首先查找response header设置的编码;如果此编码不存在,查看返回的Html的header设置的编码,代码如下:

  • 点击(此处)折叠或打开

  • if req.encoding == 'ISO-8859-1':

  • encodings = requests.utils.get_encodings_from_content(req.text)

  • if encodings:

  • encoding = encodings[0]

  • else:

  • encoding = req.apparent_encoding

  • encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

本回答被提问者采纳
已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式