Python编写爬虫时遇到的编码问题：网页源码是uft-8,.read()的输出包含了中文，使用了.endoce('utf-8')

进行pattern匹配后输出的不是中文，而是\u6211\u5728之类的编码... 进行pattern匹配后输出的不是中文，而是\u6211\u5728之类的编码展开





 我来答

2个回答

sylecn
2016-08-25 · TA获得超过2991个赞

知道大有可为答主

回答量：1169

采纳率：57%

帮助的人：691万

关注

展开全部

python打印a list of unicode string，就是这种格式的。你循环一下就不会这样了。

for item in items:
    print(item)

追问

确实可以打印出中文来耶，谢谢啊，可是可以解释下这是什么问题吗

本回答由提问者推荐

已赞过 已踩过<

评论收起

kerrywangxy
2016-08-25 · TA获得超过193个赞

知道答主

回答量：121

采纳率：0%

帮助的人：61.7万

关注

展开全部

不需要decode("utf-8")。

追问

还是会一样的结果= =

追答

哦 终于知道了为什么了，你print的是items 而不是items里的单个string，items是个list，print函数是string的方法，如果是list就会输出这种原来的编码。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容