我读过AWS胶水文档re:爬虫在这里:https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html,但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶,并创建指向这些存储桶的指针?
当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时,这些元数据表的目的是什么?
发布于 2018-12-04 13:58:03
爬行器创建元数据,允许粘合剂和服务(如雅典娜)将S3信息视为带有表的数据库。也就是说,它允许您创建Glue目录。
通过这种方式,您可以看到s3作为由几个表组成的数据库所拥有的信息。
例如,如果要创建爬虫,则必须指定以下字段:
数据库->数据库服务名称-角色/AWSGlueServiceRole选择分类器->指定分类器包含路径-> S3位置
https://stackoverflow.com/questions/53608650
复制相似问题