python3爬虫爬出的文本如何去掉\n\xa0

萌新爬小说网站用的lxml最后爬出来的文本内容有这些符号想问一下怎么去掉... 萌新爬小说网站用的lxml 最后爬出来的文本内容有这些符号想问一下怎么去掉展开

 我来答

2个回答

#热议# 在购买新能源车时，要注意哪些？

良玉小帝
2017-11-22 · 个人日常精心汇总合集

良玉小帝

采纳数：5925 获赞数：9451

向TA提问私信TA

关注

展开全部

\xa0 是不间断空白符   
我们通常所用的空格是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内。 
而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。 
latin1 字符集向下兼容 ASCII （ 0x20~0x7e ）。通常我们见到的字符多数是 latin1 的，比如在 MySQL 数据库中。 
有如下信息：
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0,', 'V-neck\xa0\xa0V型领\xa0sleeve\xa0\xa0袖子\xa0,',1

我们如何将其中的\xz0去掉呢，试了re模块的sub方法，发现没有作用，于是又开始查阅相关资料，终于解决了该问题。方法如下：
>>> inputstring = u'\n                      Door:\xa0Novum          \t      '
>>> move = dict.fromkeys((ord(c) for c in u"\xa0\n\t"))
>>> output = inputstring.translate(move)
>>> output
'                      Door:Novum                '12345

另外还有一种更简单的方法，利用split方法：
>>> s
'T-shirt\xa0\xa0短袖圆领衫,体恤衫\xa0'
>>> out = "".join(s.split())
>>> out
'T-shirt短袖圆领衫,体恤衫'


本回答被网友采纳






已赞过已踩过<

你对这个回答的评价是？
评论收起

cgh_mioqiqi
2019-02-23

知道答主

回答量：1

采纳率：0%

帮助的人：760

我也去答题访问个人页

关注

展开全部

转成str，然后直接截取：
ss.encode("utf-8") #转成str

outdata = ss[2:]

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

python3爬虫爬出的文本如何去掉\n\xa0

其他类似问题

为你推荐：