首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >创建具有多个s3路径的aws glue爬虫

创建具有多个s3路径的aws glue爬虫
EN

Stack Overflow用户
提问于 2020-09-23 07:02:54
回答 1查看 631关注 0票数 0

我想创建boto3应用程序接口与亚马逊网络服务胶水爬虫按照以下文件。

https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html#Glue.Client.create_crawler

这里我需要传递近100个s3路径,我想以编程的方式创建它。

代码语言:javascript
复制
response = client.create_crawler(
    Name='string',
    Role='string',
    DatabaseName='string',
    Description='string',
    Targets={
        'S3Targets': [
            {
                'Path': 'string',
                'Exclusions': [
                    'string',
                ],
                'ConnectionName': 'string'
            },
        ],

这里我需要一次从s3向API调用传递100个路径,有没有更好的方法通过编程来完成,而不是手动将所有s3路径添加到API调用中?

EN

回答 1

Stack Overflow用户

发布于 2020-09-30 12:25:21

正如Prabbakar提到的,将对象的完整前缀传递给爬虫程序并不是最佳做法。考虑添加整个路径并使用排除项。如果这是唯一的方法,您可以从Targets对象的列表中展开前缀

代码语言:javascript
复制
s3_paths = [
    "s3://Bucketname/data/test1/",
    "s3://Bucketname/data/testone",
    "s3://Bucketname/data/testrandompath",
     ...
]
response = client.create_crawler(
    Name='string',
    Role='string',
    DatabaseName='string',
    Description='string',
    Targets={
        'S3Targets': [
            {
                'Path': s3_path,
                'Exclusions': [],
                'ConnectionName': 'string'
            }
            for s3_path in s3_paths
        ]
     }
)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64018783

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档