文章/答案/技术大牛

发布

社区首页 >问答首页 >如何进行大规模的监督机器学习？

问如何进行大规模的监督机器学习？
EN

Data Science用户

提问于 2021-06-02 14:07:46

回答 1查看 131关注 0票数 2

我是ML的初学者，我有一个大的数据集，它有15个6M行的特性，所以在本地使用它就变得很有挑战性。我可以在本地训练一个模型，但是为了执行参数调整和交叉验证，我的macbook，它耗尽内存，缺乏处理速度和能力。我试过星星之火，但结果很差，所以我更喜欢大熊猫和雪橇的巨蟒自然生态系统。

所以我想知道我有什么选择？专业人士是如何做到的？我应该在云中提供一个具有高内存和CPU的VM，还是有任何其他基于云的或SAAS平台可以签出？

random-forest

supervised-learning

pyspark

scalability

cloud

回答 1

Data Science用户

回答已采纳

发布于 2021-06-02 17:22:14

首先，在大多数情况下处理大数据时，使用随机子集而不是整个过程更方便:通常在设计和测试阶段不需要处理完整的数据，因为不需要最优的性能。

其次，做一项烧蚀研究通常是有用的，以检查使用完整的数据对模型是否有用。有时，使用子集训练模型的结果与使用完全可用数据的结果相同，因此在这种情况下，使用所有数据没有优势。

最后，在某些情况下，确实需要处理大型数据集或运行长期的培训过程，而这是无法在常规计算机上完成的。根据环境的不同，有多种选择：

购买所需的硬件(这很少是最好的选择，但需要提及)
使用商业云服务(如AWS )
有些组织有自己的内部计算服务器/集群。特别是如果你是一名学生，很可能你应该通过你的大学获得这样的服务，四处打听(afaik大多数体面的大学现在都提供这种服务)。

票数 5

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/95177

复制

相似问题

问如何进行大规模的监督机器学习？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何进行大规模的监督机器学习？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何进行大规模的监督机器学习？
EN