首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗?
EN

Stack Overflow用户
提问于 2020-09-05 15:22:50
回答 2查看 1.4K关注 0票数 2

我们有一个现有的基础设施,可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫器中创建表。

我们能用AWS爬虫来抓取三角洲湖的文件吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-09-05 19:01:14

根据这个文档,您不应该使用Glue,crawler.You应该使用清单文件来使用集成增量文件。

警告 不要在位置上使用AWS Glue Crawler来定义AWS Glue中的表。Delta维护与表的多个版本相对应的文件,查询Glue爬行的所有文件将生成不正确的结果。

票数 2
EN

Stack Overflow用户

发布于 2022-07-08 02:28:47

Glue Crawler最近在2022年发布了Delta集成,它将解析Delta事务日志来收集Delta表的最新快照。然后,它将创建清单文件,并创建一个条目到Glue数据目录,这是可查询的通过雅典娜或红移光谱。创建的表也与湖泊形成单元级别的安全性兼容。

创建时,请确保在控制台中指定一个Delta目标,而不是在S3目标中指定。爬虫可以被调度,并将自动检测到Delta表中的模式演变,并在Glue数据目录中填充它们,并更新它发现的任何新分区。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63755539

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档