我想要对数据进行ML建模,比如XGboost、KNN和类似的模型,有9个数值特性和超过2500万行,数据的大小几乎是2.5G,我更喜欢使用所有的数据进行建模,而不想使用数据样本之类的东西。您建议使用哪些平台(如Databricks、AWS或GCP )来执行此项目?你认为它在一台机器上可行吗?
发布于 2021-05-31 12:45:47
关于2.5GG的云服务--它们都有高达64G的实例,所以您可以使用AWS / GCP或其他任何一个,这不是您的问题。
您需要做的是确保将数据高效地加载到python中。这9个数字特征是什么?整数?二进制浮子?你需要多少位数位的精度?如果值为int且小于255个,则考虑使用int8,如果它们很小,并且精度并不重要,请使用float16。如果您有字符和分类,请确保有一个函数将其转换为“数值”(较少的字符)。
关于助推模型,每个列的直方图是什么样子的?如果你没有太多的变化,你就不会期望有很多的垃圾桶--所以你可以有max_bin到10。你期望大树吗?从一棵小树开始--例如,将深度设置为5。
是的,2.5G没有那么大--我相信你可以在pc上做到这一点:-)。
https://datascience.stackexchange.com/questions/95066
复制相似问题