python抓取网页内容时出现如下错误应该怎么办?

UnicodeEncodeError:'gbk'codeccan'tencodecharacter'\ue4bf'inposition1235:illegalmultib... UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf' in position 1235: illegal multibyte sequence RT怎么破? 展开
 我来答
000117lv
推荐于2019-10-04 · TA获得超过5078个赞
知道小有建树答主
回答量:64
采纳率:100%
帮助的人:9812
展开全部
  • 在Python自带的交互式模式下编辑,交互式下,一行只能放一段代码import requests , 这一行要和下面你定义的函数隔开为两段代码

  • 也就是import requests  要按回车键,然后在新的【>>>】开始处再输入你定义的函数代码

  • 一些网页可以用Python的urllib来抓取内容,基本上没有问题

  • 但是有的网页内容在浏览器看到的和抓取的有很大区别,抓取的基本上是框架实质内容没有

  • 比如必应词典,http://dict.bing.com.cn/#good


啊啦拉韩玫
2018-01-09 · TA获得超过1.1万个赞
知道小有建树答主
回答量:87
采纳率:100%
帮助的人:7.1万
展开全部

代码如下:
>>> import urllib.request
>>> response = urllib.request.urlopen('h)
>>> html = response.read()
>>> print(html.decode('utf-8'))

Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> requests.get('https://www.zhihu.com')
<Response [200]>


作者:songjian
链接:https://www.zhihu.com/question/40873205/answer/88620840
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
结果:
Traceback (most recent call last):
File "<pyshell#3>", line 1, in <module>
print(html.decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式