将sklearn训练速度提升100多倍,美国「返利网」开源sk-dist框架

在本文中,Ibotta(美国版「返利网」)机器学习和数据科学经理EvanHarris介绍了他们的开源项目sk-dist。这是一个分配scikit-learn元估计器的Spark通用框架,它结合了Spark和scikit-learn中的元素,可以将sklearn的训练速度提升100多倍。
在Ibotta,我们训练了许多机器学习模型。这些模型为我们的推荐系统、搜索引擎、定价优化引擎、数据质量等提供