如何用python进行海量中文分词

 我来答

1个回答

#热议# 应届生在签三方时要注意什么？

赏蓖葱
2016-09-26 · 超过74用户采纳过TA的回答

知道小有建树答主

回答量：169

采纳率：0%

帮助的人：103万

我也去答题访问个人页

关注

展开全部

1、全局变量在函数中使用时需要加入global声明
2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。
3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组
4、KEY，Value值可以使用dict存储，排序后可以使用list存储
5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词
6、命令行使用需要导入os,os.system(cmd)

本回答由提问者推荐

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何用python进行海量中文分词

其他类似问题

为你推荐：