我正在尝试从SQL Server中导出一个大型数据集到我的本地硬盘,以便进行一些数据分析。文件大小高达30 10,行数为600万,列数约为10列。
然后,这些数据将通过python Pandas或Tableau输入以供使用。我认为文件本身的大小会使我在分析过程中表现不佳。
对于分析本地机器上的大数据,有什么可以分享的最佳实践吗?
我运行的是一台8 8gb内存的i7 4570。我希望减少对SQL查询的依赖,并能够离线运行大型分析。
由于数据库的性质,需要进行新的提取,这个过程将不得不重复,这意味着不会有太多的附加发生。
我已经研究了HDFStores和Tableau数据提取,但仍然好奇是否可以通过读取整个CSV文件来获得更好的性能。
有没有一种我可能遗漏的压缩方法?同样,这里的目标是在不不断查询服务器的情况下运行分析,源代码本身(我正在优化)每天早上都会刷新,这样当我上任时,我就可以专注于喝咖啡和完成一些快速的分析。
发布于 2015-12-15 18:56:12
使用Tableau,您可能希望提取CSV (查询要比CSV快得多)。这应该没问题,因为解压文件位于磁盘上。但是,如前所述,一旦数据发生更改,您就需要创建一个新的提取。
对于Pandas,我通常会将所有内容加载到内存中,但如果不适合,您可以使用chunksize (请参阅此线程:How to read a 6 GB csv file with pandas)来分块读取CSV。
https://stackoverflow.com/questions/34266167
复制相似问题