blocks|key|5359462|text|您可以编写一个小的bash脚本，该脚本执行hive/spark/presto查询来读取dat，删除重复项，然后将其写回S3。|type|unstyled|depth|inlineStyleRanges|entityRanges|data|5359463|我不使用雅典娜，但是因为它只是一个Presto，所以我假设你可以在presto中做任何能做的事情。|5359464|bash脚本执行以下操作：|5359465|5359466|读取数据并应用不同的筛选器(或要应用的任何逻辑)，然后将其插入到另一个位置。|unordered-list-item|5359467|5359468|例如：|5359469|CREATE+TABLE+mydb.newTable+AS
SELECT+DISTINCT+*
FROM+hive.schema.myTable|code-block|syntax|javascript|5359470|5359471|如果是周期性任务，则INSER+OVERWRITE会更好。|5359472|不要忘记设置配置单元数据库的位置，以便轻松标识数据目标。|5359473|5359474|语法参考：https://prestodb.io/docs/current/sql/create-table.html|offset|length|5359475|使用aws+s3+CLI+command.|5359476|Move+|5359477|5359478|删除旧数据目录中的新数据|5359479|5359480|现在，您可以安全地读取相同的表，但记录将是不同的。|5359481|entityMap|0|LINK|mutability|MUTABLE|url|https://prestodb.io/docs/current/sql/create-table.html|1|https://docs.aws.amazon.com/cli/latest/reference/s3/rm.html^0|0|0|0|0|0|0|0|0|0|0|0|0|5|1I|0|0|2|I|1|0|0|0|0|0|0^^$0|@$1|2|3|4|5|6|7|1L|8|@]|9|@]|A|$]]|$1|B|3|C|5|6|7|1M|8|@]|9|@]|A|$]]|$1|D|3|E|5|6|7|1N|8|@]|9|@]|A|$]]|$1|F|3|-4|5|6|7|1O|8|@]|9|@]|A|$]]|$1|G|3|H|5|I|7|1P|8|@]|9|@]|A|$]]|$1|J|3|-4|5|6|7|1Q|8|@]|9|@]|A|$]]|$1|K|3|L|5|6|7|1R|8|@]|9|@]|A|$]]|$1|M|3|N|5|O|7|1S|8|@]|9|@]|A|$P|Q]]|$1|R|3|-4|5|6|7|1T|8|@]|9|@]|A|$]]|$1|S|3|T|5|I|7|1U|8|@]|9|@]|A|$]]|$1|U|3|V|5|I|7|1V|8|@]|9|@]|A|$]]|$1|W|3|-4|5|6|7|1W|8|@]|9|@]|A|$]]|$1|X|3|Y|5|6|7|1X|8|@]|9|@$Z|1Y|10|1Z|1|20]]|A|$]]|$1|11|3|12|5|6|7|21|8|@]|9|@$Z|22|10|23|1|24]]|A|$]]|$1|13|3|14|5|I|7|25|8|@]|9|@]|A|$]]|$1|15|3|-4|5|I|7|26|8|@]|9|@]|A|$]]|$1|16|3|17|5|6|7|27|8|@]|9|@]|A|$]]|$1|18|3|-4|5|6|7|28|8|@]|9|@]|A|$]]|$1|19|3|1A|5|6|7|29|8|@]|9|@]|A|$]]|$1|1B|3|-4|5|6|7|2A|8|@]|9|@]|A|$]]]|1C|$1D|$5|1E|1F|1G|A|$1H|1I]]|1J|$5|1E|1F|1G|A|$1H|1K]]]]

You can write a small bash script that executes a hive/spark/presto query for reading the dat, removing the duplicates and then writing it back to S3.

I don't use Athena but since it is just presto then I will assume you can do whatever can be done in Presto.

The bash script does the following : 

<ul>
<li>Read the data and apply a distinct filter (or whatever logic you want to apply) and then insert it to another location.</li>
</ul>

For Example : 

<pre><code>CREATE TABLE mydb.newTable AS
SELECT DISTINCT *
FROM hive.schema.myTable
</code></pre>

<ul>
<li>If it is a recurring task, then INSER OVERWRITE would be better.</li>
<li>Don't forget to set the location of the hive db to easily identify the data destination.</li>
</ul>

Syntax Reference : <a href="https://prestodb.io/docs/current/sql/create-table.html" rel="nofollow noreferrer">https://prestodb.io/docs/current/sql/create-table.html</a>

<ul>
<li>Remove the old data directory using <a href="https://docs.aws.amazon.com/cli/latest/reference/s3/rm.html" rel="nofollow noreferrer">aws s3 CLI command</a>.</li>
<li>Move the new data to the old directory</li>
</ul>

Now you can safely read the same table but the records would be distinct.

blocks|key|330228|text|请使用CTAS：|type|unstyled|depth|inlineStyleRanges|entityRanges|data|330229|CREATE+TABLE+new_table
WITH+(
++++++format+=+'Parquet',
++++++parquet_compression+=+'SNAPPY')
AS+SELECT+DISTINCT+*
FROM+old_table;|code-block|syntax|javascript|330230|参考：https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html|offset|length|330231|entityMap|0|LINK|mutability|MUTABLE|url|https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html^0|0|0|3|1R|0|0^^$0|@$1|2|3|4|5|6|7|S|8|@]|9|@]|A|$]]|$1|B|3|C|5|D|7|T|8|@]|9|@]|A|$E|F]]|$1|G|3|H|5|6|7|U|8|@]|9|@$I|V|J|W|1|X]]|A|$]]|$1|K|3|-4|5|6|7|Y|8|@]|9|@]|A|$]]]|L|$M|$5|N|O|P|A|$Q|R]]]]

Please use CTAS:

<pre><code>CREATE TABLE new_table
WITH (
 format = 'Parquet',
 parquet_compression = 'SNAPPY')
AS SELECT DISTINCT *
FROM old_table;
</code></pre>

Reference: <a href="https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html" rel="nofollow noreferrer">https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html</a>

blocks|key|5359493|text|我们不能删除重复的雅典娜，因为它在文件上工作，它有工作绕过。|type|unstyled|depth|inlineStyleRanges|entityRanges|data|5359494|因此，在s3中如何从文件中删除重复记录，最简单方法是使用外壳脚本。|5359495|或|5359496|使用distinct选项编写select查询。|5359497|注意:两者都是成本高昂的操作。|5359498|entityMap^0|0|0|0|0|0^^$0|@$1|2|3|4|5|6|7|L|8|@]|9|@]|A|$]]|$1|B|3|C|5|6|7|M|8|@]|9|@]|A|$]]|$1|D|3|E|5|6|7|N|8|@]|9|@]|A|$]]|$1|F|3|G|5|6|7|O|8|@]|9|@]|A|$]]|$1|H|3|I|5|6|7|P|8|@]|9|@]|A|$]]|$1|J|3|-4|5|6|7|Q|8|@]|9|@]|A|$]]]|K|$]]

We can not remove duplicate in Athena as it works on file it have work arrounds.

So some how duplicate record should be deleted from files in s3, most easy way would be shellscript.

Or

Write select query with distinct option.

Note: Both are costly operations.

blocks|key|5359622|text|使用雅典娜可以使外部表对存储在S3中的数据执行。如果要修改现有数据，请使用HIVE。|type|unstyled|depth|inlineStyleRanges|offset|length|style|BOLD|entityRanges|data|5359623|在hive.|5359624|INSERT+OVERWRITE+TABLE+new_table_name++SELECT+DISTINCT+*+FROM+old_table;|unordered-list-item|CODE|5359625|
中创建|5359626|表|5359627|5359628|entityMap^0|8|F|0|0|0|20|0|0|0|0^^$0|@$1|2|3|4|5|6|7|S|8|@$9|T|A|U|B|C]]|D|@]|E|$]]|$1|F|3|G|5|6|7|V|8|@]|D|@]|E|$]]|$1|H|3|I|5|J|7|W|8|@$9|X|A|Y|B|K]]|D|@]|E|$]]|$1|L|3|M|5|6|7|Z|8|@]|D|@]|E|$]]|$1|N|3|O|5|J|7|10|8|@]|D|@]|E|$]]|$1|P|3|-4|5|6|7|11|8|@]|D|@]|E|$]]|$1|Q|3|-4|5|6|7|12|8|@]|D|@]|E|$]]]|R|$]]

Using Athena can make EXTERNAL TABLE on data stored in S3. If you want to modify existing data then use HIVE.

<ul>
<li>Create a table in hive.</li>
<li><code>INSERT OVERWRITE TABLE new_table_name SELECT DISTINCT * FROM old_table;</code> </li>
</ul>

We have streaming applications storing data on S3. The S3 partitions might have duplicated records. We query the data in S3 through Athena. 

Is there a way to remove duplicates from S3 files so that we don't get them while querying from Athena?

Deduplication on Amazon Athena

翻译质量差，导致语言生硬或混乱。

没有提供实际的解决方法或示例。

解答不清晰，无法理解或解决问题。

页面排版不美观，阅读体验差。

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云AI代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

功能1上新10个字符

功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符功能2描述100个字符。

功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符功能2上新100个字符。

功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符功能5描述100个字符

功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符功能5上新100个字符

功能4上新

文章&问答评论现已支持表情

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

社区富文本编辑器全新改版！诚邀体验～ 

精选全网热门MCP server，让你的AI更好用 🚀

💥开发者 MCP广场重磅上线！

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

我们有流媒体应用程序在S3上存储数据。S3分区可能具有重复的记录。我们通过雅典娜查询S3中的数据。有没有一种方法可以从S3文件中删除重复项，这样我们在从雅典娜查询时就不会得到它们？

问Amazon Athena上的重复数据删除
EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Amazon Athena上的重复数据删除EN

回答 4

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Amazon Athena上的重复数据删除
EN