python抓取网页内容时出现如下错误应该怎么办？

UnicodeEncodeError:'gbk'codeccan'tencodecharacter'\ue4bf'inposition1235:illegalmultib... UnicodeEncodeError: 'gbk' codec can't encode character '\ue4bf' in position 1235: illegal multibyte sequence RT怎么破？展开

 我来答

2个回答

#热议# 什么是淋病？哪些行为会感染淋病？

000117lv
推荐于2019-10-04 · TA获得超过5078个赞

知道小有建树答主

回答量：64

采纳率：100%

帮助的人：9812

我也去答题访问个人页

关注

展开全部

在Python自带的交互式模式下编辑，交互式下，一行只能放一段代码import requests ，这一行要和下面你定义的函数隔开为两段代码
也就是import requests 要按回车键，然后在新的【>>>】开始处再输入你定义的函数代码

一些网页可以用Python的urllib来抓取内容，基本上没有问题
但是有的网页内容在浏览器看到的和抓取的有很大区别，抓取的基本上是框架实质内容没有
比如必应词典，http://dict.bing.com.cn/#good

已赞过 已踩过<

评论收起

啊啦拉韩玫
2018-01-09 · TA获得超过1.1万个赞

知道小有建树答主

回答量：87

采纳率：100%

帮助的人：7.1万

我也去答题访问个人页

关注

展开全部

代码如下：
>>> import urllib.request
>>> response = urllib.request.urlopen('h)
>>> html = response.read()
>>> print(html.decode('utf-8'))

Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import requests
>>> requests.get('https://www.zhihu.com')
<Response [200]>

作者：songjian
链接：https://www.zhihu.com/question/40873205/answer/88620840
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
结果：
Traceback (most recent call last):
File "<pyshell#3>", line 1, in <module>
print(html.decode('utf-8'))
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python抓取网页内容时出现如下错误应该怎么办？

其他类似问题

为你推荐：