我的胶水工作流程是DDB ->胶水表(使用Crawler) -> S3 (使用胶水作业)
在运行工作流之前,我手动创建S3文件夹。
。
i为s3启用了日志,而在日志中,GlueJobRunnerSession在此文件夹s3上使用了DeleteObject
。
工作流/作业的
我使用覆盖保持文件夹只有最新的数据。但是我不知道为什么这会继续删除以大容量DDB作为数据源的文件夹。有什么想法吗?
发布于 2022-08-29 02:09:39
这个问题是由于整个表被读取到单个分区,因为它是默认行为。在从DDB表读取数据时增加dynamodb.splits应该会有所帮助,因为它将数据并行地读取到多个partitions.Below中是pySpark中的一个例子。
dyf = glue_context.create_dynamic_frame.from_options(
connection_type="dynamodb",
connection_options={"dynamodb.input.tableName": "test_source",
"dynamodb.throughput.read.percent": "1.0",
"dynamodb.splits": "100"
}
)有关更多信息,请参阅下面的链接:
https://stackoverflow.com/questions/73496856
复制相似问题