我正在尝试将Redshift迁移到BigQuery。表的大小是2TB+,我正在使用bigquery红移数据传输服务。但是迁移已经运行了5个多小时。
还可以看到在Redshift端执行的查询将数据卸载到50MB的区块中。由于无法在红移传输作业中配置块大小参数。
将2TB的数据从redshfit传输到BigQuery需要这么多时间,或者可以做一些事情来改进这项工作。
有一些像雪花一样的系统,从红移到结束只需要2-3个小时。
发布于 2019-09-13 06:55:25
Bigquery红移数据传输服务建立在Google云存储传输服务之上。端到端的数据移动包括: 1.从Redshift集群中提取数据到S3 2.将数据从S3移动到GCS3.将数据从GCS加载到BQ
虽然第二步和第三步很快,但第一步实际上受到Redshift集群本身的限制,因为执行卸载命令的是Redshift集群。
可以选择以下几种方法: 1.升级到功能强大的集群。2.做红移工作负载管理(https://docs.aws.amazon.com/redshift/latest/dg/c_workload_mngmt_classification.html),为迁移账号(提供给Bigquery红移数据传输服务的账号)提供更好的优先级和资源来执行UNLOAD命令。
发布于 2019-07-22 20:00:33
我没有使用红移数据传输服务的经验,但我使用过谷歌云存储传输服务(可用here),根据我的经验,它具有很强的可扩展性。它应该在一个小时内传输2TB的数据。如果您有数百万个小文件要传输,可能需要几个小时,但它仍然可以工作。
将数据放入谷歌云存储后,可以将其导入到BigQuery中,也可以创建一个联邦表来扫描谷歌云存储中的数据。
https://stackoverflow.com/questions/57145500
复制相似问题