首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >运行BigQuery中数据分析的工具?

运行BigQuery中数据分析的工具?
EN

Stack Overflow用户
提问于 2015-12-13 11:22:30
回答 3查看 232关注 0票数 0

我在BigQuery中有大约100 to的数据,而且我对使用数据分析工具相当陌生。我想获取大约3000个针对不同查询的摘录,使用一系列编程的SQL查询,然后运行一些统计分析来比较这些摘录中的峰度。

现在,我的工作流程如下:

  • 在本地机器上运行,使用BigQuery获取数据提取并在本地保存它们。
  • 在本地机器上运行,使用scipy对提取液进行峰度分析。

第二种方法可以正常工作,但是保存本地所有3000条数据提取(网络超时等)是非常缓慢和痛苦的。

有更好的方法吗?基本上,我想知道是否有某种云工具,我可以快速地运行调用获得3000提取,然后运行Python来进行峰度分析。

我看了一下https://cloud.google.com/bigquery/third-party-tools,但我不确定这些是否能满足我的需要。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2015-12-13 13:26:08

有两种简单的方法:

1:如果您说的问题是网络问题,请使用机器进行analisis,与bigquery表(us、eu等)所在的区域相同。它不会出现从bigquery获取数据的网络问题,而且速度会非常快。这台机器只花你几分钟的时间。保存机器的快照,以便随时重用机器设置(快照也有每月的成本,但比机器启动要低得多)。

2:使用(截至12月的测试版)。( 2015),它支持bigquery源代码,并为您提供进行分析和稍后与其他人共享所需的所有工具:https://cloud.google.com/datalab/

在他们的文档中:"Cloud是建立在木星(以前的IPython)之上的,它拥有一个繁荣的模块生态系统和强大的知识库。云Datalab可以使用Python、SQL和JavaScript (用于BigQuery用户定义的函数)来分析您在谷歌BigQuery、谷歌计算引擎和谷歌云存储上的数据。“

票数 1
EN

Stack Overflow用户

发布于 2015-12-13 17:46:42

到目前为止,是您最好的选择

https://cloud.google.com/datalab/

它还在测试阶段,所以有一些惊喜是可能的。

Datalab建立在下面(木星/IPython)选项之上,完全建立在云端。

另一种选择是木星/IPython笔记本。

http://jupyter-notebook-beginner-guide.readthedocs.org/en/latest/

我们的数据团队早在很久以前就开始了第二选择,取得了很大的成功,现在正在向Datalab移动。

然而,对于业务的其余部分(prod、bi、ops、sales、市场部等),我们必须构建自己的工作流/业务流程工具,因为周围没有任何东西被发现是好的或相关的。

票数 2
EN

Stack Overflow用户

发布于 2016-01-07 08:20:46

您可以查看库拉达

它允许您以外部数据源的形式对表进行查询。您可以做的是安排您的查询并将结果导出到Google存储,在那里您可以从中获取,或者使用内置的强大报告工具来回答您的3000条查询。它还将为您提供企业所需的所有BI工具。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34250546

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档