首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在爬行亚马逊S3文件夹时排除日期模式。使用aws爬虫

如何在爬行亚马逊S3文件夹时排除日期模式。使用aws爬虫
EN

Stack Overflow用户
提问于 2021-06-24 10:53:40
回答 1查看 299关注 0票数 0

我的文件夹结构如下:

代码语言:javascript
复制
s3://foo/table1/2021-06-12/03-35-00/
s3://foo/table1/Current/data
s3://foo/table2/2021-06-12/03-35-00/
s3://foo/table2/Current/data
s3://foo/table3/2021-06-12/03-35-00/
s3://foo/table3/Current/data

..。等等

我想要排除所有的日期和时间戳模式,并且只抓取当前/数据文件夹。如何才能做到这一点?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-24 18:03:27

考虑到当前的爬虫包含路径被设置为爬行s3://foo位置,那么您可以在爬虫设置中使用排除模式配置:s3://foo/tabel*/2021*/**,如果从2021年开始,它将跳过所有表的所有文件和文件夹。

类似地,您可以在本节中添加其他glob模式以跳过其他文件和文件夹。

为了更好地理解,您可以参考,包括和排除模式部分这里

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68114386

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档