文章/答案/技术大牛

发布

社区首页 >问答首页 >AWS胶爬行器是做什么的？

问AWS胶爬行器是做什么的？
EN

Stack Overflow用户

提问于 2018-12-04 08:32:48

回答 2查看 9.2K关注 0票数 3

我读过AWS胶水文档re:爬虫在这里：https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？

当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

amazon-web-services

aws-glue

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-12-04 13:58:03

爬行器创建元数据，允许粘合剂和服务(如雅典娜)将S3信息视为带有表的数据库。也就是说，它允许您创建Glue目录。

通过这种方式，您可以看到s3作为由几个表组成的数据库所拥有的信息。

例如，如果要创建爬虫，则必须指定以下字段：

数据库->数据库服务名称-角色/AWSGlueServiceRole选择分类器->指定分类器包含路径-> S3位置

票数 4

Stack Overflow用户

发布于 2018-12-05 04:33:38

爬虫需要分析指定的s3位置中的数据，并生成/更新Glue数据目录，这基本上是一个用于实际数据的元存储(类似于蜂巢亚稳态)。换句话说，它保存有关数据的物理位置、模式、格式和分区的信息，从而可以通过雅典娜查询实际数据或在Glue作业中加载数据。

我建议阅读这文档来更好地理解Glue爬虫，当然也可以做一些实验。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53608650

复制

相似问题

问AWS胶爬行器是做什么的？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS胶爬行器是做什么的？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问AWS胶爬行器是做什么的？
EN