在对直接从GCS到bigquery的文件进行测试时,我们比流插入获得了更好的性能。但是,表演也有很大的波动,
例如,我们测试了将大型CSV加载到BQ (10M行,2GB)中:第一次加载时间为2.275分钟,第二次加载时间为8分钟。为何进口时间会出现这样的波动?
https://cloud.google.com/bigquery/docs/reference/rest/v2/jobs#configuration.load
Update:这原来是阈值中的更改:
结果表明,它依赖于MaxError属性。我在2分钟内导入CSV的时间是在MaxError太低和一些错误(比如字段太长)阻止它完全解析CSV文件的时候。从那以后,我把MaxError提高到了1000。
尝试了几次,用这个阈值集完成解析需要7-8分钟。
发布于 2017-03-30 05:55:37
Load基本上是对联邦数据源的查询,其结果保存到目标表中。查询的性能取决于后端系统的负载。费利佩在BigQuery Performance中很好地解释了这一点。
https://stackoverflow.com/questions/43104292
复制相似问题