文本特征提取

 我来答

1个回答

#热议# 网上掀起『练心眼子』风潮，真的能提高情商吗？

濒危物种1718
2022-07-14 · TA获得超过1.2万个赞

知道大有可为答主

回答量：6597

采纳率：100%

帮助的人：46.2万

我也去答题访问个人页

关注

展开全部

在对文本数据进行处理时，很大一部分精力都用在数据集的特征提取上，因此记录一下常用的文本特征提取方法。

文本特征提取一般分为两部分
（1）文本本身属性：元音字数数、辅音字母数、···
（2）基于文本的特征提取物棚：TF-IDF等

比如提取以上文档的特征，基于文本本身可以提取特征：
（1）字数：统计每一行text文本的词汇数量（有多少个单词）
（2）非重复单词数量：统计每一行text文本中只出现一次的单词个数
（3）长度：每一行text的长度,占了多少存储空间（包含空格、符号、字母等的长度）
（4）停止词数量统计：between、but、about、very等词汇的数量统计
（5）标点符号数量：每一行text中包含模蚂顷的标点符号数量
（6）大写单词数量：统计大写单词数量
（7）标题式单词数量：统计单词拼写首字母是否为大写,且其他字母为小写的单词数量
（8）单词的平均长度：每一行text中每个单词长度的平均值
这些特征的提取不涉及复杂的函数计算，基于文本本身属性提取直观信息作为模型训练的特征。

TF-IDF算法：计算单词权重最为有效的实现方法就是TF-IDF, 它是由Salton在1988 年提出的,以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重。

python中使用TfidfVectorizer函数实现TF-IDF特征的提取，生成每个text的TF-IDF特征。

经过TF-IDF特征提取后，数据集的特征变量超级多（TF-IDF计算了整个数据集出现的所有单词对每个test的权重），旦陆面对这样庞大的特征数据，可以通过SVD实现对数据集的压缩。
SVD的原理是将庞大的TF-IDF生成的数据集A进行拆分，设置K值（想要压缩得到的维度，例如K=20，压缩后得到20列的特征数据集）X就是只有K个特征转换后的数据集。

经过压缩后的TF-IDF只有K列，与01中 基于文本本身特征 合并，即为文本数据集的特征向量。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

文本特征提取

其他类似问题

为你推荐：