中文分词中正向最大匹配算法的分词速度是多少?准确率大概为多少?
2个回答
2013-11-26
展开全部
主要看你的词表结构了,最大词长的初始值,查词典的次数和匹配的次数,然后得出时间复杂度,原始hash算法复杂度没记错的话应该是2.89,11年看过一个文献,提出一种改进的算法时间复杂度是2.291……
另外,分词算法并不是原封不动的,比如有些搜索引擎的词表结构就采用tire树结构,这样不用设置最大词长,不过内存空间方面就要有取舍,甚至还有采用减少查典次数增加匹配次数的搜索引擎……
所以单纯的给你一个189.3m/M纯内存分词速度,但是这算法换个台更高配置的服务器却变成了497.6ms/M,这没有任何意义……
记得哪个文献上有人说,分词本身不是目的,而是后续处理过程的必要阶段,所以,除非你是研究算法的,否则单纯追求这东西的速度和准确率没什么太大意义
另外,分词算法并不是原封不动的,比如有些搜索引擎的词表结构就采用tire树结构,这样不用设置最大词长,不过内存空间方面就要有取舍,甚至还有采用减少查典次数增加匹配次数的搜索引擎……
所以单纯的给你一个189.3m/M纯内存分词速度,但是这算法换个台更高配置的服务器却变成了497.6ms/M,这没有任何意义……
记得哪个文献上有人说,分词本身不是目的,而是后续处理过程的必要阶段,所以,除非你是研究算法的,否则单纯追求这东西的速度和准确率没什么太大意义
2013-11-26
展开全部
分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;速度达到10M/s
,速度达到10M/s,
,速度达到10M/s,
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询