文章/答案/技术大牛

发布

社区首页 >问答首页 >从SQL server到本地硬盘再到Tableau和Pandas的大量数据

问从SQL server到本地硬盘再到Tableau和Pandas的大量数据
EN

Stack Overflow用户

提问于 2015-12-14 19:41:23

回答 1查看 434关注 0票数 0

我正在尝试从SQL Server中导出一个大型数据集到我的本地硬盘，以便进行一些数据分析。文件大小高达30 10，行数为600万，列数约为10列。

然后，这些数据将通过python Pandas或Tableau输入以供使用。我认为文件本身的大小会使我在分析过程中表现不佳。

对于分析本地机器上的大数据，有什么可以分享的最佳实践吗？

我运行的是一台8 8gb内存的i7 4570。我希望减少对SQL查询的依赖，并能够离线运行大型分析。

由于数据库的性质，需要进行新的提取，这个过程将不得不重复，这意味着不会有太多的附加发生。

我已经研究了HDFStores和Tableau数据提取，但仍然好奇是否可以通过读取整个CSV文件来获得更好的性能。

有没有一种我可能遗漏的压缩方法？同样，这里的目标是在不不断查询服务器的情况下运行分析，源代码本身(我正在优化)每天早上都会刷新，这样当我上任时，我就可以专注于喝咖啡和完成一些快速的分析。

python

sql-server

csv

pandas

tableau-api

回答 1

Stack Overflow用户

发布于 2015-12-15 18:56:12

使用Tableau，您可能希望提取CSV (查询要比CSV快得多)。这应该没问题，因为解压文件位于磁盘上。但是，如前所述，一旦数据发生更改，您就需要创建一个新的提取。

对于Pandas，我通常会将所有内容加载到内存中，但如果不适合，您可以使用chunksize (请参阅此线程：How to read a 6 GB csv file with pandas)来分块读取CSV。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34266167

复制

相似问题

问从SQL server到本地硬盘再到Tableau和Pandas的大量数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从SQL server到本地硬盘再到Tableau和Pandas的大量数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从SQL server到本地硬盘再到Tableau和Pandas的大量数据
EN