我们有一个现有的基础设施,可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的,并通过spark作业转储。为了实现增量功能,我们在deltalake上做了一个POC。因此,当我通过星火三角洲作业在S3中编写这些deltalake文件时,我的爬虫程序无法从这些爬虫器中创建表。
我们能用AWS爬虫来抓取三角洲湖的文件吗?
发布于 2020-09-05 19:01:14
发布于 2022-07-08 02:28:47
Glue Crawler最近在2022年发布了Delta集成,它将解析Delta事务日志来收集Delta表的最新快照。然后,它将创建清单文件,并创建一个条目到Glue数据目录,这是可查询的通过雅典娜或红移光谱。创建的表也与湖泊形成单元级别的安全性兼容。
创建时,请确保在控制台中指定一个Delta目标,而不是在S3目标中指定。爬虫可以被调度,并将自动检测到Delta表中的模式演变,并在Glue数据目录中填充它们,并更新它发现的任何新分区。
https://stackoverflow.com/questions/63755539
复制相似问题