求助 中文文本挖掘和文本矩阵遇到的问题 40

为什么分词矩阵最后包含\n这个符号(换行符号)语句如下demo<-c("《文本挖掘(英文版)》是一部文本挖掘领域名著","作者为世界知名的权威学者。书中涵盖了核心文本挖掘... 为什么 分词矩阵最后包含\n这个符号(换行符号)语句如下

demo<-c("《文本挖掘(英文版)》是一部文本挖掘领域名著","作者为世界知名的权威学者。书中涵盖了核心文本挖掘操作、文本挖掘预处理技术","分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结...")segcn<-segmentCN(as.character(demo$goodsName))segcn<-segmentCN(as.character(demo))corpus<-Corpus(VectorSource(segcn))matrix<-DocumentTermMatrix(corpus)其中corpus 和 matrix 请用inspect() 函数观察数据请不要黏贴复制网上的文本挖掘 我看了不少了谢谢
我说的是R语言范畴内,请不要对我说其他的挖掘算法系统或是平台。
展开
 我来答
bi...u@163.com
2015-01-30 · 超过55用户采纳过TA的回答
知道答主
回答量:101
采纳率:0%
帮助的人:81.2万
展开全部
可以用RapidMiner, 用Update RapidMiner菜单项下载并安装Text processing构件包。使用process documents...构件可以做文本挖掘,处理中文时要将这些构件的encoding参数设置成GB18030(对于简体中文)。
追问
我说的是R语言 不好意思。就这个范畴内解答。谢谢
匿名用户
2017-06-25
展开全部

用 segmentCN 函数 进行分词的时候,加上 returnType = 'tm',就可以啦

txt <- segmentCN(as.character(temp_df$X7),returnType = 'tm')

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式