使用sklearn做文本分类,速度比较慢,有什么优化方法
1个回答
2017-03-28
展开全部
首先,我觉得你可以打印出每一个步骤所需耗费的时间,看一看哪一个步骤所耗费的时间比较多,尝试着寻找优化的方法。我先说说我想到的几个点吧。在sklearn中的一些分类方法中,其参数里用开启多进程的选项,你不妨试试看。如果你的训练数据规模比较大,不妨试一下LSA、LDA等一些模型,先降维。这两个方法在sklearn中也是有的。还有就是,在CountVectorizer中,mintf和maxtf参数的设置,为了避免包含过多的词。虽然这可能对速度的影响比较小,但对你的结果可能会有影响。必须要有一个好的停用词和词典,如果你处理的是中文文本的话。暂时就能想到这么多。
已赞过
已踩过<
评论
收起
你对这个回答的评价是?
推荐律师服务:
若未解决您的问题,请您详细描述您的问题,通过百度律临进行免费专业咨询