我有一个扁平的数据集,每一行都包含用户属性(年龄、loc等)、注册和访问日期时间。每天隔断。~1000万每天访问行,2500万用户,每天500万用户。现在使用的是几个月的数据,在一年内,这将是~3billion+行。
为了提高效率和减少大小,我考虑移动到嵌套行:每个用户都有嵌套记录,只有寄存器和访问日期时间。
在进行重大更改之前,假设我不会超过每行64K的限制&我将相应地更改我的查询。这会比平排更好吗?
问题:
Thx很多
发布于 2012-12-27 18:02:20
1: json数据的实际导入行大小限制为20 MB,而不是64k。我已经提交了一个文档错误,以便在我们的公开文档中更新这个错误。
我的猜测是,更复杂的查询和加载逻辑意味着嵌套数据不会带来多大好处。您最好保持数据的非规范化和扁平化,白天对数据进行分区,并查询查询中需要的表的合并。我们正在研究如何更容易地在查询中指定表的范围,这可能会有所帮助。
https://stackoverflow.com/questions/14017546
复制相似问题