我正在阅读如何清理/处理/争论数据集,以便在它们上运行机器学习算法。很多关于如何做实际争吵的信息,但一个实际的细节似乎被掩盖了:存储。
我的问题很简单:为了以最方便、最有效的方式运行算法,哪种是存储/检索大型数据集的入门技术?
我猜算法是用哪种语言编写的,在这里并不完全相关。
发布于 2016-09-21 09:53:02
有很多技术需要处理。这些是我所知道的最受欢迎的:
对于以块形式操作的中度数据- Pandas -pd.read_csv(‘tra.csv’,chunksize=chunksize)
对于更大的数据- dask,Hadoop和R
有关其他各种建议,请参考这。
发布于 2016-09-21 12:54:36
目前,Apache Hadoop是存储数据的流行技术之一,而Apache Spark是一个非常流行的计算引擎,用于计算/处理大型数据集。
https://datascience.stackexchange.com/questions/14125
复制相似问题