python怎样保证requests抓取下的text的编码格式正确

 我来答

2个回答

#合辑# 机票是越早买越便宜吗？

DoramiHe
2017-04-10 · 知道合伙人互联网行家

DoramiHe
知道合伙人互联网行家

采纳数：25332 获赞数：59543

2011年中山职业技术学院毕业，现担任毅衣公司京东小二

向TA提问私信TA

关注

展开全部

requests对象的get和post方法都会返回一个Response对象，这个对象里面存的是服务器返回的所有信息，包括响应头，响应状态码等。其中返回的网页部分会存在.content和.text两个对象中。两者区别在于，content中间存的是字节码，而text中存的是Beautifulsoup根据猜测的编码方式将content内容编码成字符串。直接输出content，会发现前面存在b'这样的标志，这是字节字符串的标志，而text是'，没有前面的b,对于纯ascii码，这两个可以说一模一样，对于其他的文字，需要正确编码才能正常显示。大部分情况建议使用.text，因为显示的是汉字，但有时会显示乱码，这时需要用.content.decode('utf-8')，中文常用utf-8和GBK，GB2312等。这样可以手工选择文字编码方式。所以简而言之，.text是现成的字符串，.content还要编码，但是.text不是所有时候显示都正常，这是就需要用.content进行手动编码。不明白可追问。

已赞过 已踩过<

评论收起

cjjohn3
2017-04-10 · TA获得超过6644个赞

知道大有可为答主

回答量：3622

采纳率：69%

帮助的人：1008万

我也去答题访问个人页

关注

展开全部

r = requests.get(url,timeout = 30);
        r.raise_for_status();
        if r.encoding == 'ISO-8859-1':
            r.encoding = r.apparent_encoding;
        return r.text;

大概这样吧

本回答被提问者采纳

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python怎样保证requests抓取下的text的编码格式正确

其他类似问题

为你推荐：