我们有流媒体应用程序在S3上存储数据。S3分区可能具有重复的记录。我们通过雅典娜查询S3中的数据。
有没有一种方法可以从S3文件中删除重复项,这样我们在从雅典娜查询时就不会得到它们?
发布于 2017-08-15 15:27:58
您可以编写一个小的bash脚本,该脚本执行hive/spark/presto查询来读取dat,删除重复项,然后将其写回S3。
我不使用雅典娜,但是因为它只是一个Presto,所以我假设你可以在presto中做任何能做的事情。
bash脚本执行以下操作:
例如:
CREATE TABLE mydb.newTable AS
SELECT DISTINCT *
FROM hive.schema.myTable语法参考:https://prestodb.io/docs/current/sql/create-table.html
删除旧数据目录中的新数据
现在,您可以安全地读取相同的表,但记录将是不同的。
发布于 2019-08-31 03:11:11
请使用CTAS:
CREATE TABLE new_table
WITH (
format = 'Parquet',
parquet_compression = 'SNAPPY')
AS SELECT DISTINCT *
FROM old_table;参考:https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html
发布于 2017-08-16 11:26:53
我们不能删除重复的雅典娜,因为它在文件上工作,它有工作绕过。
因此,在s3中如何从文件中删除重复记录,最简单方法是使用外壳脚本。
或
使用distinct选项编写select查询。
注意:两者都是成本高昂的操作。
https://stackoverflow.com/questions/45659174
复制相似问题