使用sklearn做文本分类,速度比较慢,有什么优化方法
展开全部
首先,我觉得你可以打印出每一个步骤所需耗费的时间,看一看哪一个步骤所耗费的时间比较多,尝试着寻找优化的方法。我先说说我想到的几个点吧。
在sklearn中的一些分类方法中,其参数里用开启多进程的选项,你不妨试试看。
如果你的训练数据规模比较大,不妨试一下LSA、LDA等一些模型,先降维。这两个方法在sklearn中也是有的。
还有就是,在CountVectorizer中,mintf和maxtf参数的设置,为了避免包含过多的词。虽然这可能对速度的影响比较小,但对你的结果可能会有影响。
必须要有一个好的停用词和词典,如果你处理的是中文文本的话。
暂时就能想到这么多。
在sklearn中的一些分类方法中,其参数里用开启多进程的选项,你不妨试试看。
如果你的训练数据规模比较大,不妨试一下LSA、LDA等一些模型,先降维。这两个方法在sklearn中也是有的。
还有就是,在CountVectorizer中,mintf和maxtf参数的设置,为了避免包含过多的词。虽然这可能对速度的影响比较小,但对你的结果可能会有影响。
必须要有一个好的停用词和词典,如果你处理的是中文文本的话。
暂时就能想到这么多。
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询