我有一个应用程序写入数据到S3每天或每小时或只是随机,另一个应用程序读取数据从S3到本地HBase。有没有办法知道上一次更新后上传的文件是什么,然后读取之后的文件,换句话说,就是增量复制文件?
例如:第1天: App1将文件1, 2 ,3写入文件夹1;App2将这3个文件读取到HBase;第4天: App1将文件4和5写入文件夹1,6,7,8到文件夹2;App2需要从文件夹1读取4和5,然后从文件夹2读取6,7,8。
谢谢
发布于 2012-07-25 02:51:18
LastModified报头字段可用于根据创建日期处理数据。这需要客户端上的内置逻辑来存储已处理的项和新项。您可以简单地存储您处理的日期,因此之后的所有内容都被视为新的。
示例:
s3cmd ls s3://test
2012-07-24 18:29 36303234 s3://test/dl.pdf查看文件前面的日期。
https://stackoverflow.com/questions/11636045
复制相似问题