首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Java中两种异构系统的数据验证

Java中两种异构系统的数据验证
EN

Stack Overflow用户
提问于 2016-07-26 15:08:27
回答 1查看 121关注 0票数 0

由于数据从RDBMS (oracle/teradata)迁移到HDFS ( HIVE ),要求是比较从RDBMS到HIVE数据集的完整数据集,我知道从RDBMS/HIVE带来大量数据是一种很大的网络开销,但这正是我的要求,我开发了一个基本的java框架,在eclipse中使用源查询和目标查询(行数有限),并通过获取RDBMS和HIVE结果集进行并行比较,然而,为了使之成为一个更全面的验证,我必须比较这两个系统的键,并检查两个系统中的重复项。

  1. 初始化两个HashMaps,一个用于关系数据库,另一个用于单元,然后将PK作为数组中的键和非键属性作为值。现在,使用两个哈希映射试图比较它之间的键/值。但是在RAM中加载两个结果集和散列映射会降低性能。
  2. 尝试使用REDIS内存中的数据库来存储键/值对,但是,当我试图通过JAVA程序访问REDIS时,不确定如何使用REDIS hashmap/hashset,这是我们在Java中使用的方式。
  3. 将结果集写入两个不同的文本文件中,但是编写文件和读取/处理是很费时的。

对于从关系数据库获取数据的部分内容,我已经做了一些提到过的这里这里,我想可能有一些工具可以用于这项工作,但是我正在尝试在开源中开发一些东西。

EN

回答 1

Stack Overflow用户

发布于 2016-07-29 04:44:48

您的数据是否具有时间戳或任何可用于对数据进行排序的递增值,或者来自一个数据源的一个重复元素是否位于另一个数据源的任何位置?如果需要对数据进行排序(比如时间戳),您可以使用任何类型的流系统,并且“简单”地执行一个不同的选择。但是,需要更多有关您正在处理的数据类型的信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38593607

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档