关键词怎么提取
在巨量的信息面前,很多信息是我们无法全面接收,因此我们需要从中筛选出一些我们感兴趣的或者有代表性的信息进行接收。那么这一个过程就是关键词提取技术。如果我们可以准确的将所有的文档都用几个简单的关键词描述,那么我们便可以通过关键词了解一篇文章的内容,这将会提高信息获取到效率。想要在海量的信息里提取出我们所需要的信息,就需要学会如何提取关键词。
一,TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文档频次算法)是一种基于统计的计算方法,常用于评估在一个文档集中一个词对某份文档的重要程度。这种思想是符合关键词抽取的需求,一个词语对文档越重要,那么是关键词的概率就越大,所以通常将TF-IDF算法应用在关键词提取中。
二,在上述的TF-IDF算法中,都需要基于一个现成的语料库,主题模型的关键词提取算法则是需要通过对大规模文档学习,发现文档的隐含主题。
三,而TextRank算法则是可以脱离语料库的基础,仅对单篇文档进行分析就可以提取该文档的关键词。这也是TextRank算法的重要特点。TextRank算法的基本思想源于Google的PageRank算法。因此这里需要先了解下PageRank算法。