我在用python写一个脚本,从网站上抓取文本,但有的页面是繁体字,python执行decode会出错
RT,是“中国古籍全录”这个网站,网站页面上提供了简繁转换功能,但好多页面默认是繁体,我不知道怎样让PYTHON做出像鼠标点击那个选项的动作,我看了网页源码,好像是通过一...
RT,是“中国古籍全录”这个网站,网站页面上提供了简繁转换功能,但好多页面默认是繁体,我不知道怎样让PYTHON做出像鼠标点击那个选项的动作,我看了网页源码,好像是通过一段JS脚本进行转换的,哪位大神告诉我怎么破? 网址是http://guji.artx.cn/article/7000.html
展开
1个回答
展开全部
那个网站的简繁转换功能只是在JS里面做仿镇一个简体字列表和一个对应的繁体字列表,
然后搜索每一个字,作简单的替换而备拍粗已。
你把那段JS脚本用python重写一下就行了。
但是提醒一下,这种简单的简繁替换是错误的贺弊。对大多数字来说可以接受,
但对那些本来在繁体中是两个字,转成简体是一个字的情况,就出问题了。
例如“后”与“後”在繁体中是两个不同意思的字,但简体都是“后”。
简单做替换的话,就分不清“后”与“後”了。
当然,你要是只想得到简体的结果,倒无所谓了。
然后搜索每一个字,作简单的替换而备拍粗已。
你把那段JS脚本用python重写一下就行了。
但是提醒一下,这种简单的简繁替换是错误的贺弊。对大多数字来说可以接受,
但对那些本来在繁体中是两个字,转成简体是一个字的情况,就出问题了。
例如“后”与“後”在繁体中是两个不同意思的字,但简体都是“后”。
简单做替换的话,就分不清“后”与“後”了。
当然,你要是只想得到简体的结果,倒无所谓了。
追问
那有什么更好的办法吗?我现在最主要的问题是在执行decode的时候繁体字的码根本转不出来,直接报错了........
追答
你的decode代码有问题吧,把这部分代码贴上来看看。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询