如何在 Spark 机器学习中应用 scikit-learn

 我来答

1个回答

匿名用户
2017-09-12

展开全部

我们知道scikit-learn运算中最核心的数据结构存储主要是numpy ndarray，而Spark运算中最核心的存储是RDD，说白了就是一个基于有向无环图的MapReduce，图的目的就是减少Map和Reduce之间传递的数据，所以非常适合反复迭代的机器学习场景。PySpark可以提供很好用的API来计算map、reduce、join、filter等函数式运算，但没法处理numpy ndarray这种local存储。

已赞过 已踩过<

评论收起

推荐律师服务：若未解决您的问题，请您详细描述您的问题，通过百度律临进行免费专业咨询

如何在 Spark 机器学习中应用 scikit-learn

为你推荐：