我在用python写一个脚本,从网站上抓取文本,但有的页面是繁体字,python执行decode会出错

RT,是“中国古籍全录”这个网站,网站页面上提供了简繁转换功能,但好多页面默认是繁体,我不知道怎样让PYTHON做出像鼠标点击那个选项的动作,我看了网页源码,好像是通过一... RT,是“中国古籍全录”这个网站,网站页面上提供了简繁转换功能,但好多页面默认是繁体,我不知道怎样让PYTHON做出像鼠标点击那个选项的动作,我看了网页源码,好像是通过一段JS脚本进行转换的,哪位大神告诉我怎么破? 网址是http://guji.artx.cn/article/7000.html 展开
 我来答
百度网友4826b3c
2014-01-01 · TA获得超过5024个赞
知道大有可为答主
回答量:2999
采纳率:96%
帮助的人:1274万
展开全部
那个网站的简繁转换功能只是在JS里面做仿镇一个简体字列表和一个对应的繁体字列表,
然后搜索每一个字,作简单的替换而备拍粗已。
你把那段JS脚本用python重写一下就行了。
但是提醒一下,这种简单的简繁替换是错误的贺弊。对大多数字来说可以接受,
但对那些本来在繁体中是两个字,转成简体是一个字的情况,就出问题了。
例如“后”与“後”在繁体中是两个不同意思的字,但简体都是“后”。
简单做替换的话,就分不清“后”与“後”了。
当然,你要是只想得到简体的结果,倒无所谓了。
追问
那有什么更好的办法吗?我现在最主要的问题是在执行decode的时候繁体字的码根本转不出来,直接报错了........
追答
你的decode代码有问题吧,把这部分代码贴上来看看。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式