我正在尝试实现从us-east 1到us-west-1的跨区域复制。
我使用Amazon Data Pipeline中的跨区域复制模板每隔几个小时复制一个表,但是我无法执行增量复制。我必须在DefaultHiveCopyActivity1下的Activities下填写Filter SQL字段。该表包含一个名为timestamp的列,它是一个格式为yyyy-MM-dd HH:mm:ss.SSS的字符串,其中包含请求的时间。
我一直在尝试将字符串转换为unix_timestamp,并从unix_timestamp的当前值中减去7200 (因为流水线活动应该每两个小时运行一次,因此可以在表中找到时间戳为2小时之前的每条记录)。我使用这个过滤SQL字段值:unix_timestamp(timestamp, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200,管道失败。
我甚至尝试过检查一个简单的请求,比如将以下内容放入Filter SQL字段(它会自动添加反斜杠):timestamp = \"2014-04-30 22:55:41.301\" -根据我应该输入的文档:一个Hive SQL语句片段,用于过滤要复制的DynamoDB或Amazon S3数据的子集。过滤器应该只包含谓词,并且不能以WHERE子句开头,因为AWS Data Pipeline会自动添加它。此管道也会失败,即使在表中有一个具有该精确值的记录。不过,在不使用SQL过滤器的情况下,从一个区域复制到另一个区域的全表复制效果很好。
这是我得到的错误:FAILED: Parse Error: line 2:131 cannot recognize input near 'timestamp' ',' '"yyyy-MM-dd HH:mm:ss.SSS"' in function specification
http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-template-crossregionddbcopy.html http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-hivecopyactivity.html
发布于 2014-05-03 05:06:10
在引用时间戳列名称时,HiveQL查询中的时间戳字段应该像这样进行反标记,因为在配置单元中,时间戳似乎是一个关键字:unix_timestamp(`timestamp`, "yyyy-MM-dd HH:mm:ss.SSS") > unix_timestamp() - 7200
https://stackoverflow.com/questions/23420549
复制相似问题