php自动提取文章关键字?

 我来答
北大青鸟志远科技
2023-04-03 · 用心创作内容,感谢您的关注。
北大青鸟志远科技
向TA提问
展开全部

现在很多web系统都用到了不少的自然语言处理技术来提高客户体验。



主要技术:


1.文章关键字提取.


2.相关文章(产品)推荐.


最近有不少网友问道,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提.


基本分以下几个步骤:


一.对文章进行分词:


php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。


这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。


选择的分词器需要支持停止词过滤。


二.统计词条词频并且排序:


对一篇文章分词后,统计每个词条出现的次数。然后按照词频降序排序下,你想要的结果在前面几个词中。


前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。 


现在,很多web系统都用到了不少的自然语言处理技术来提高客户体验.主要技术:1.文章关键字提取.2.相关文章(产品)推荐.最近有不少网友问到,这里以php为例子讲解下php的"关键字提取"的实现,同时这个也是实现"相关文章推荐"的前提。


基本分以下几个步骤:


 一.对文章进行分词:php的中文分词程序还是有不少的,从前辈的scws,到用纯php实现的phpAnalysis,phpcws(phpcws)以及本人开发的robbe扩展。这里的讲解是使用"robbe分词扩展"来进行分词,robbe兴许不是最好的,但一定是最快的。选择的分词器需要支持停止词过滤。 


二.统计词条词频并且排序:对一篇文章分词后,统计每个词条出现的次数,然后按照词频降序排序下,你想要的结果在前面几个词中。昌平IT培训建议前提是去除了出现词频很高的停止词,要不然得到的都是一些无用的停止词。


推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式