我正在对包含2.2亿行的128 on表运行以下查询:
select id, count(*) as cnt
from logs.nobids_05
group each by 1
having cnt > 1
limit 10;如果出现“查询执行期间超出的资源”错误,则会失败。
这个表中的id应该是唯一的,我想检查一下是否确实如此。
有办法运行这个查询吗?
我理解,后面的算法可能会产生一个与原始表大小相似的临时哈希表。bigquery (dremel)对每个查询可以创建的临时数据量是否仍然有限制?
你对解决办法有什么建议吗?
发布于 2014-05-30 00:59:13
这个问题现在已经解决了。您应该不再看到此查询的资源超过了,而且许多其他查询都不应该再遇到此问题。如果你继续有问题,请点击线程。
背景:
当您使用GROUP时,BigQuery会猜测每个操作将涉及到组中的数据的大小(从技术上讲,它关心键的基数)。有时这是容易的,有时不是。
为此设置的配置阈值太小;也就是说,对于给定的查询,我们没有为每个按操作操作的组提供足够的资源以使其成功。
https://stackoverflow.com/questions/23942157
复制相似问题