由于数据从RDBMS (oracle/teradata)迁移到HDFS ( HIVE ),要求是比较从RDBMS到HIVE数据集的完整数据集,我知道从RDBMS/HIVE带来大量数据是一种很大的网络开销,但这正是我的要求,我开发了一个基本的java框架,在eclipse中使用源查询和目标查询(行数有限),并通过获取RDBMS和HIVE结果集进行并行比较,然而,为了使之成为一个更全面的验证,我必须比较这两个系统的键,并检查两个系统中的重复项。
对于从关系数据库获取数据的部分内容,我已经做了一些提到过的这里和这里,我想可能有一些工具可以用于这项工作,但是我正在尝试在开源中开发一些东西。
发布于 2016-07-29 04:44:48
您的数据是否具有时间戳或任何可用于对数据进行排序的递增值,或者来自一个数据源的一个重复元素是否位于另一个数据源的任何位置?如果需要对数据进行排序(比如时间戳),您可以使用任何类型的流系统,并且“简单”地执行一个不同的选择。但是,需要更多有关您正在处理的数据类型的信息。
https://stackoverflow.com/questions/38593607
复制相似问题