对于常规的数据传输,GCS Transfer Service是一个很好的解决方案。在目标存储桶具有归档存储类的情况下,将一个存储桶同步到另一个存储桶的适当设置是什么?
我担心的一个问题是,如果服务正在检查相同的对象,那么在存档类对象上可能会进行代价高昂的操作。如果为了避免这些检查,我每天只复制最近24小时内新的文件,那么这个计时有多精确--我会因为作业开始时几分钟的计时抖动而错过一个文件吗?
发布于 2020-05-31 04:50:12
而“适当的设置”则完全取决于您的业务需求。一个不错的方法是在您的标准存储桶上使用在创建/完成时触发的Cloud函数,该存储桶在第二个存储桶中创建该对象的副本。
您可以使用python中的此函数作为指导:
from google.cloud import storage
from google.cloud.storage.blob import Blob
def hello_gcs(event, context):
client = storage.Client()
source_bucket = client.get_bucket("my_source_bucket)
dest_bucket = client.get_bucket("my_destination_bucket")
filename = str(event['id']).rsplit('/',1)[0]
blob = Blob.from_string("gs://" + filename)
source_bucket.copy_blob(blob,dest_bucket)https://stackoverflow.com/questions/62092379
复制相似问题