我在BigQuery中有大约100 to的数据,而且我对使用数据分析工具相当陌生。我想获取大约3000个针对不同查询的摘录,使用一系列编程的SQL查询,然后运行一些统计分析来比较这些摘录中的峰度。
现在,我的工作流程如下:
scipy对提取液进行峰度分析。第二种方法可以正常工作,但是保存本地所有3000条数据提取(网络超时等)是非常缓慢和痛苦的。
有更好的方法吗?基本上,我想知道是否有某种云工具,我可以快速地运行调用获得3000提取,然后运行Python来进行峰度分析。
我看了一下https://cloud.google.com/bigquery/third-party-tools,但我不确定这些是否能满足我的需要。
发布于 2015-12-13 13:26:08
有两种简单的方法:
1:如果您说的问题是网络问题,请使用机器进行analisis,与bigquery表(us、eu等)所在的区域相同。它不会出现从bigquery获取数据的网络问题,而且速度会非常快。这台机器只花你几分钟的时间。保存机器的快照,以便随时重用机器设置(快照也有每月的成本,但比机器启动要低得多)。
2:使用(截至12月的测试版)。( 2015),它支持bigquery源代码,并为您提供进行分析和稍后与其他人共享所需的所有工具:https://cloud.google.com/datalab/
在他们的文档中:"Cloud是建立在木星(以前的IPython)之上的,它拥有一个繁荣的模块生态系统和强大的知识库。云Datalab可以使用Python、SQL和JavaScript (用于BigQuery用户定义的函数)来分析您在谷歌BigQuery、谷歌计算引擎和谷歌云存储上的数据。“
发布于 2015-12-13 17:46:42
到目前为止,是您最好的选择
https://cloud.google.com/datalab/
它还在测试阶段,所以有一些惊喜是可能的。
Datalab建立在下面(木星/IPython)选项之上,完全建立在云端。
另一种选择是木星/IPython笔记本。
http://jupyter-notebook-beginner-guide.readthedocs.org/en/latest/
我们的数据团队早在很久以前就开始了第二选择,取得了很大的成功,现在正在向Datalab移动。
然而,对于业务的其余部分(prod、bi、ops、sales、市场部等),我们必须构建自己的工作流/业务流程工具,因为周围没有任何东西被发现是好的或相关的。
发布于 2016-01-07 08:20:46
您可以查看库拉达
它允许您以外部数据源的形式对表进行查询。您可以做的是安排您的查询并将结果导出到Google存储,在那里您可以从中获取,或者使用内置的强大报告工具来回答您的3000条查询。它还将为您提供企业所需的所有BI工具。
https://stackoverflow.com/questions/34250546
复制相似问题