使用sklearn做文本分类,速度比较慢,有什么优化方法

 我来答
llzzcc66
2017-03-20 · 知道合伙人数码行家
llzzcc66
知道合伙人数码行家
采纳数:81385 获赞数:171473
公司运维员工

向TA提问 私信TA
展开全部
首先,我觉得你可以打印出每一个步骤所需耗费的时间,看一看哪一个步骤所耗费的时间比较多,尝试着寻找优化的方法。我先说说我想到的几个点吧。

在sklearn中的一些分类方法中,其参数里用开启多进程的选项,你不妨试试看。

如果你的训练数据规模比较大,不妨试一下LSA、LDA等一些模型,先降维。这两个方法在sklearn中也是有的。

还有就是,在CountVectorizer中,mintf和maxtf参数的设置,为了避免包含过多的词。虽然这可能对速度的影响比较小,但对你的结果可能会有影响。

必须要有一个好的停用词和词典,如果你处理的是中文文本的话。

暂时就能想到这么多。
推荐律师服务: 若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询

为你推荐:

下载百度知道APP,抢鲜体验
使用百度知道APP,立即抢鲜体验。你的手机镜头里或许有别人想知道的答案。
扫描二维码下载
×

类别

我们会通过消息、邮箱等方式尽快将举报结果通知您。

说明

0/200

提交
取消

辅 助

模 式