我是ML的初学者,我有一个大的数据集,它有15个6M行的特性,所以在本地使用它就变得很有挑战性。我可以在本地训练一个模型,但是为了执行参数调整和交叉验证,我的macbook,它耗尽内存,缺乏处理速度和能力。我试过星星之火,但结果很差,所以我更喜欢大熊猫和雪橇的巨蟒自然生态系统。
所以我想知道我有什么选择?专业人士是如何做到的?我应该在云中提供一个具有高内存和CPU的VM,还是有任何其他基于云的或SAAS平台可以签出?
发布于 2021-06-02 17:22:14
首先,在大多数情况下处理大数据时,使用随机子集而不是整个过程更方便:通常在设计和测试阶段不需要处理完整的数据,因为不需要最优的性能。
其次,做一项烧蚀研究通常是有用的,以检查使用完整的数据对模型是否有用。有时,使用子集训练模型的结果与使用完全可用数据的结果相同,因此在这种情况下,使用所有数据没有优势。
最后,在某些情况下,确实需要处理大型数据集或运行长期的培训过程,而这是无法在常规计算机上完成的。根据环境的不同,有多种选择:
https://datascience.stackexchange.com/questions/95177
复制相似问题