如何用python对文章中文分词并统计词频

 我来答

2个回答

匿名用户
2016-01-01

展开全部

1、全局变量在函数中使用时需要加入global声明
2、获取网页内容存入文件时的编码为ascii进行正则匹配时需要decode为GB2312，当匹配到的中文写入文件时需要encode成GB2312写入文件。
3、中文字符匹配过滤正则表达式为ur'[\u4e00-\u9fa5]+',使用findall找到所有的中文字符存入分组
4、KEY，Value值可以使用dict存储，排序后可以使用list存储
5、字符串处理使用split分割，然后使用index截取字符串，判断哪些是名词和动词
6、命令行使用需要导入os,os.system(cmd)

本回答被网友采纳

已赞过已踩过<

你对这个回答的评价是？
评论收起

我玩邓艾很犀利
2016-01-01 · 超过14用户采纳过TA的回答

知道答主

回答量：27

采纳率：0%

帮助的人：29.5万

我也去答题访问个人页

关注

展开全部

可以参考python的结巴分词库

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容

pytnon环境搭建-在线下载全新中文版pytnon安装

正版软件，不捆绑安装一次收费，长期使用，绿色通道，无广告，十年安装经验致力用户高效开发，支持远程协助安装，支持重置，使用便捷放心。

www1.msc23.cn广告

python，慕课网在线课程学习，对标企业招聘要求

www.imooc.com

如何用python对文章中文分词并统计词频

您可能关注的内容

其他类似问题

为你推荐：