我想知道是否有一个方法或Python包可以让我使用大型数据集,而无需将其写入RAM中。
我还用熊猫做统计功能。
我需要访问整个数据集,因为许多统计函数都需要整个数据集来返回可信的结果。
我在Windows 10的LiClipse上使用LiClipse(连同解释器Python3.4)。
发布于 2016-06-30 09:33:40
您也可以使用标架、达斯克来支持大型数据集,也可以使用熊猫和块进行读取/迭代,以尽量减少内存的使用。也值得一看熊熊库
成批阅读:
chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)发布于 2016-06-30 09:37:03
如果您只需要将磁盘虚拟化为一个大型RAM内存,那么您可以在系统上设置一个交换文件。然后,内核将根据需要自动交换页面,使用启发式方法确定哪些页面应该交换,哪些应该留在磁盘上。
https://stackoverflow.com/questions/38118942
复制相似问题