文本特征提取

 我来答
濒危物种1718
2022-07-14 · TA获得超过1.2万个赞
知道大有可为答主
回答量:6597
采纳率:100%
帮助的人:46.2万
展开全部

在对文本数据进行处理时,很大一部分精力都用在数据集的特征提取上,因此记录一下常用的文本特征提取方法。

文本特征提取一般分为两部分
(1)文本本身属性:元音字数数、辅音字母数、···
(2)基于文本的特征提取物棚:TF-IDF等

比如提取以上文档的特征,基于文本本身可以提取特征:
(1)字数:统计每一行text文本的词汇数量(有多少个单词)
(2)非重复单词数量:统计每一行text文本中只出现一次的单词个数
(3)长度:每一行text的长度,占了多少存储空间(包含空格、符号、字母等的长度)
(4)停止词数量统计:between、but、about、very等词汇的数量统计
(5)标点符号数量:每一行text中包含模蚂顷的标点符号数量
(6)大写单词数量:统计大写单词数量
(7)标题式单词数量:统计单词拼写首字母是否为大写,且其他字母为小写的单词数量
(8)单词的平均长度:每一行text中每个单词长度的平均值
这些特征的提取不涉及复杂的函数计算,基于文本本身属性提取直观信息作为模型训练的特征。

·

TF-IDF算法 :计算单词权重最为有效的实现方法就是TF-IDF, 它是由Salton在1988 年提出的,以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重。

python中使用TfidfVectorizer函数实现TF-IDF特征的提取,生成每个text的TF-IDF特征。

·

经过TF-IDF特征提取后,数据集的特征变量超级多(TF-IDF计算了整个数据集出现的所有单词对每个test的权重),旦陆面对这样庞大的特征数据,可以通过SVD实现对数据集的压缩。
SVD的原理是将庞大的TF-IDF生成的数据集A进行拆分,设置K值(想要压缩得到的维度,例如K=20,压缩后得到20列的特征数据集)X就是只有K个特征转换后的数据集。

经过压缩后的TF-IDF只有K列,与01中 基于文本本身特征 合并,即为文本数据集的特征向量。

已赞过 已踩过<
你对这个回答的评价是?
评论 收起
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式