问建模具有大量行的数据。
EN

Data Science用户

提问于 2021-05-30 16:19:01

回答 1查看 69关注 0票数 0

我想要对数据进行ML建模，比如XGboost、KNN和类似的模型，有9个数值特性和超过2500万行，数据的大小几乎是2.5G，我更喜欢使用所有的数据进行建模，而不想使用数据样本之类的东西。您建议使用哪些平台(如Databricks、AWS或GCP )来执行此项目？你认为它在一台机器上可行吗？

发布于 2021-05-31 12:45:47

关于2.5GG的云服务--它们都有高达64G的实例，所以您可以使用AWS / GCP或其他任何一个，这不是您的问题。

您需要做的是确保将数据高效地加载到python中。这9个数字特征是什么？整数？二进制浮子？你需要多少位数位的精度？如果值为int且小于255个，则考虑使用int8，如果它们很小，并且精度并不重要，请使用float16。如果您有字符和分类，请确保有一个函数将其转换为“数值”(较少的字符)。

关于助推模型，每个列的直方图是什么样子的？如果你没有太多的变化，你就不会期望有很多的垃圾桶--所以你可以有max_bin到10。你期望大树吗？从一棵小树开始--例如，将深度设置为5。

是的，2.5G没有那么大--我相信你可以在pc上做到这一点:-)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/95066

复制

相似问题

问建模具有大量行的数据。EN