首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >存储大量数据集供python机器学习算法使用

存储大量数据集供python机器学习算法使用
EN

Data Science用户
提问于 2016-09-21 08:30:26
回答 2查看 1.6K关注 0票数 0

我正在阅读如何清理/处理/争论数据集,以便在它们上运行机器学习算法。很多关于如何做实际争吵的信息,但一个实际的细节似乎被掩盖了:存储。

我的问题很简单:为了以最方便、最有效的方式运行算法,哪种是存储/检索大型数据集的入门技术?

我猜算法是用哪种语言编写的,在这里并不完全相关。

EN

回答 2

Data Science用户

发布于 2016-09-21 09:53:02

有很多技术需要处理。这些是我所知道的最受欢迎的:

对于以块形式操作的中度数据- Pandas -pd.read_csv(‘tra.csv’,chunksize=chunksize)

对于更大的数据- dask,Hadoop和R

有关其他各种建议,请参考

票数 1
EN

Data Science用户

发布于 2016-09-21 12:54:36

目前,Apache Hadoop是存储数据的流行技术之一,而Apache Spark是一个非常流行的计算引擎,用于计算/处理大型数据集。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/14125

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档