我尝试了大查询导出到云存储功能,以节省一些钱。需要的是以AVRO压缩格式导出,以保持模式,并能够在需要时在Big Query上再次导入它们。因为Big Query使用未压缩的大小收取数据费用,而我的数据是高度冗余的,所以压缩后的数据应该减少到原来的20倍。
在UI界面上,导出到AVRO时没有压缩选项。所以我假设这将是默认的,但事实并非如此。它导出AVRO没有压缩,这对我来说没有任何意义,因为文件将是相同的表大小,并将成本相同的东西保存在大查询和云存储。
https://cloud.google.com/bigquery/docs/exporting-data
没有任何关于这方面的信息。
谁知道是否有其他方法,而不是导出和加载到集群上,以转换为压缩的AVRO,并再次保存无云存储?
发布于 2018-07-24 23:10:06
因此,经过大量的研究,一个朋友在查找Big Query库的python代码时发现,有一些未记录的AVRO压缩选项可以传递给API: DEFLATE和SNAPPY
我认为这是新的,还没有形成文档,也还没有出现在WEB界面上。
我对它进行了测试,并且工作正常!我的一个表导出没有压缩的文件是一个2.8 my的AVRO文件,现在使用DEFLATE是170MB。
发布于 2018-07-25 14:05:03
我认为
是新的,还没有形成文档。
在configuration.extract.compression上记录了AVRO的压缩和快速压缩
您还可以在bq命令行中看到它
bq help extract:
还没有出现在网页界面上
是。AVRO的压缩选项在BigQuery UI中不可用-无论是传统UI还是新UI
应该可以在API和bq命令行中使用,以及任何已经为AVRO实现了压缩的客户端库。
https://stackoverflow.com/questions/51501928
复制相似问题