首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >谷歌BigQuery基础架构

谷歌BigQuery基础架构
EN

Stack Overflow用户
提问于 2014-03-30 14:42:03
回答 1查看 4.9K关注 0票数 11

所以我在10分钟前就开始使用Google BigQuery了,我想知道是否有人知道他们用来存储数据的底层架构?例如,这仅仅是下一代的BigTable基础设施吗?

另外,是否清楚他们在索引、索引重建等方面所使用的策略?我只是想分析一下,在这个时候,你能百分之百地确定你的数据端到端到底发生了什么,这是否已经足够成熟了,还是有一点黑匣子区域里的“事情只是起作用”呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-03-31 21:50:27

没有索引..。每个查询都是一个表扫描。描述了这里的查询体系结构。您的数据以称为ColumnIO的专用列式格式存储在Colossus (GFS的继承者)上。Colossus在数据中心中复制数据,并且您的数据也被复制到其他地理区域,以确保即使Google数据中心离线也仍然可用。

回答你的具体问题

  • 虽然数据可以暂时存储在Bigtable中,但是所有的数据都是长期存储在Colossus中的(目前!)
  • 添加到bigquery中的新数据是在rest时加密的(也就是说,无论何时将其写入永久存储)。它在通过网络发送时也是加密的。
  • 如前所述,没有索引,因此没有重建索引的策略。根据向表添加数据的方式,表可能合并,这意味着以更有效的方式重写底层文件。
  • ColumnIO是谷歌所有服务中的一个标准,其背后隐藏着大量的谷歌数据。我认为这两种技术都是成熟的。
  • 但是,您也应该将其视为一个黑匣子。随着Google存储系统的成熟或体系结构的改变,这里的所有细节都可能发生变化。然而,它应该始终“只起作用”(当然,在SLA的警告内)

如果您对BigQuery如何在封面下工作或如何有效地使用它的更多细节感兴趣,这里有一个关于这个主题的不知羞耻的插件,它将于6月份发布。

票数 24
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22745300

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档