首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何进行大规模的监督机器学习?

如何进行大规模的监督机器学习?
EN

Data Science用户
提问于 2021-06-02 14:07:46
回答 1查看 131关注 0票数 2

我是ML的初学者,我有一个大的数据集,它有15个6M行的特性,所以在本地使用它就变得很有挑战性。我可以在本地训练一个模型,但是为了执行参数调整和交叉验证,我的macbook,它耗尽内存,缺乏处理速度和能力。我试过星星之火,但结果很差,所以我更喜欢大熊猫和雪橇的巨蟒自然生态系统。

所以我想知道我有什么选择?专业人士是如何做到的?我应该在云中提供一个具有高内存和CPU的VM,还是有任何其他基于云的或SAAS平台可以签出?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-06-02 17:22:14

首先,在大多数情况下处理大数据时,使用随机子集而不是整个过程更方便:通常在设计和测试阶段不需要处理完整的数据,因为不需要最优的性能。

其次,做一项烧蚀研究通常是有用的,以检查使用完整的数据对模型是否有用。有时,使用子集训练模型的结果与使用完全可用数据的结果相同,因此在这种情况下,使用所有数据没有优势。

最后,在某些情况下,确实需要处理大型数据集或运行长期的培训过程,而这是无法在常规计算机上完成的。根据环境的不同,有多种选择:

  • 购买所需的硬件(这很少是最好的选择,但需要提及)
  • 使用商业云服务(如AWS )
  • 有些组织有自己的内部计算服务器/集群。特别是如果你是一名学生,很可能你应该通过你的大学获得这样的服务,四处打听(afaik大多数体面的大学现在都提供这种服务)。
票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/95177

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档