所以我在10分钟前就开始使用Google BigQuery了,我想知道是否有人知道他们用来存储数据的底层架构?例如,这仅仅是下一代的BigTable基础设施吗?
另外,是否清楚他们在索引、索引重建等方面所使用的策略?我只是想分析一下,在这个时候,你能百分之百地确定你的数据端到端到底发生了什么,这是否已经足够成熟了,还是有一点黑匣子区域里的“事情只是起作用”呢?
发布于 2014-03-31 21:50:27
没有索引..。每个查询都是一个表扫描。描述了这里的查询体系结构。您的数据以称为ColumnIO的专用列式格式存储在Colossus (GFS的继承者)上。Colossus在数据中心中复制数据,并且您的数据也被复制到其他地理区域,以确保即使Google数据中心离线也仍然可用。
回答你的具体问题
如果您对BigQuery如何在封面下工作或如何有效地使用它的更多细节感兴趣,这里有一个关于这个主题的不知羞耻的书插件,它将于6月份发布。
https://stackoverflow.com/questions/22745300
复制相似问题