首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >建模具有大量行的数据。

建模具有大量行的数据。
EN

Data Science用户
提问于 2021-05-30 16:19:01
回答 1查看 69关注 0票数 0

我想要对数据进行ML建模,比如XGboost、KNN和类似的模型,有9个数值特性和超过2500万行,数据的大小几乎是2.5G,我更喜欢使用所有的数据进行建模,而不想使用数据样本之类的东西。您建议使用哪些平台(如Databricks、AWS或GCP )来执行此项目?你认为它在一台机器上可行吗?

EN

回答 1

Data Science用户

发布于 2021-05-31 12:45:47

关于2.5GG的云服务--它们都有高达64G的实例,所以您可以使用AWS / GCP或其他任何一个,这不是您的问题。

您需要做的是确保将数据高效地加载到python中。这9个数字特征是什么?整数?二进制浮子?你需要多少位数位的精度?如果值为int且小于255个,则考虑使用int8,如果它们很小,并且精度并不重要,请使用float16。如果您有字符和分类,请确保有一个函数将其转换为“数值”(较少的字符)。

关于助推模型,每个列的直方图是什么样子的?如果你没有太多的变化,你就不会期望有很多的垃圾桶--所以你可以有max_bin到10。你期望大树吗?从一棵小树开始--例如,将深度设置为5。

是的,2.5G没有那么大--我相信你可以在pc上做到这一点:-)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/95066

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档