问创建具有多个s3路径的aws glue爬虫
EN

Stack Overflow用户

提问于 2020-09-23 07:02:54

回答 1查看 631关注 0票数 0

我想创建boto3应用程序接口与亚马逊网络服务胶水爬虫按照以下文件。

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html#Glue.Client.create_crawler

这里我需要传递近100个s3路径，我想以编程的方式创建它。

response = client.create_crawler(
    Name='string',
    Role='string',
    DatabaseName='string',
    Description='string',
    Targets={
        'S3Targets': [
            {
                'Path': 'string',
                'Exclusions': [
                    'string',
                ],
                'ConnectionName': 'string'
            },
        ],

这里我需要一次从s3向API调用传递100个路径，有没有更好的方法通过编程来完成，而不是手动将所有s3路径添加到API调用中？

amazon-s3

boto3

aws-glue

回答 1

Stack Overflow用户

发布于 2020-09-30 12:25:21

正如Prabbakar提到的，将对象的完整前缀传递给爬虫程序并不是最佳做法。考虑添加整个路径并使用排除项。如果这是唯一的方法，您可以从Targets对象的列表中展开前缀

s3_paths = [
    "s3://Bucketname/data/test1/",
    "s3://Bucketname/data/testone",
    "s3://Bucketname/data/testrandompath",
     ...
]
response = client.create_crawler(
    Name='string',
    Role='string',
    DatabaseName='string',
    Description='string',
    Targets={
        'S3Targets': [
            {
                'Path': s3_path,
                'Exclusions': [],
                'ConnectionName': 'string'
            }
            for s3_path in s3_paths
        ]
     }
)

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64018783

复制

相似问题

问创建具有多个s3路径的aws glue爬虫
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建具有多个s3路径的aws glue爬虫EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问创建具有多个s3路径的aws glue爬虫
EN