文本分类系统的流程及步骤

 我来答

1个回答

高能答主

2020-02-25 · 专注生活类答题，解决生活问题

生活类答题小能手

采纳数：1645 获赞数：295639

关注

展开全部

文本分类系统的总体功能模块为：

1、预处理：将原始语料格式化为同一格式，便于后续的统一处理。

2、索引：将文档分解为基本处理单元，同时降低后续处理的开销。

3、统计：词频统计，项（单词、概念）与分类的相关概率。

4、特征抽取：从文档中抽取出反映文档主题的特征。

5、分类器：分类器的训练。

6、评价：分类器的测试结果分析。

扩展资料

文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。数据驱动分类器学习一直是近年来的热点，方法很多，比如神经网络、决策树、支持向量机、朴素贝叶斯等。相对于其他精心设计的更复杂的分类算法，朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。

直观的文本分类算法，也是最简单的贝叶斯分类器，具有很好的可解释性，朴素贝叶斯算法特点是假设所有特征的出现相互独立互不影响，每一特征同等重要。

但事实上这个假设在现实世界中并不成立：首先，相邻的两个词之间的必然联系，不能独立；其次，对一篇文章来说，其中的某一些代表词就确定它的主题，不需要通读整篇文章、查看所有词。所以需要采用合适的方法进行特征选择，这样朴素贝叶斯分类器才能达到更高的分类效率。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

您可能关注的内容