文章/答案/技术大牛

发布

社区首页 >问答首页 >存储大量数据集供python机器学习算法使用

问存储大量数据集供python机器学习算法使用
EN

Data Science用户

提问于 2016-09-21 08:30:26

回答 2查看 1.6K关注 0票数 0

我正在阅读如何清理/处理/争论数据集，以便在它们上运行机器学习算法。很多关于如何做实际争吵的信息，但一个实际的细节似乎被掩盖了:存储。

我的问题很简单:为了以最方便、最有效的方式运行算法，哪种是存储/检索大型数据集的入门技术？

我猜算法是用哪种语言编写的，在这里并不完全相关。

machine-learning

bigdata

回答 2

Data Science用户

发布于 2016-09-21 09:53:02

有很多技术需要处理。这些是我所知道的最受欢迎的：

对于以块形式操作的中度数据- Pandas -pd.read_csv(‘tra.csv’，chunksize=chunksize)

对于更大的数据- dask，Hadoop和R

有关其他各种建议，请参考这。

票数 1

Data Science用户

发布于 2016-09-21 12:54:36

目前，Apache Hadoop是存储数据的流行技术之一，而Apache Spark是一个非常流行的计算引擎，用于计算/处理大型数据集。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/14125

复制

相似问题

问存储大量数据集供python机器学习算法使用
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问存储大量数据集供python机器学习算法使用EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问存储大量数据集供python机器学习算法使用
EN