我用蜂巢创建了弹性搜索索引。在这里,我有一个临时表,其中加载所有原始数据。从该表中选择一些标准上的数据,并将它们插入到与弹性搜索索引集成的表中。
在创建索引之后,我将比较hive表中的计数(在主表中使用相同的标准),在集成ES和弹性搜索索引的表上进行比较。找到的计数不一样。
在ES索引中,它是:与ES集成的表上的4663296:4663296 (与ES相同),但在hive中是:4611296 (主表基于相同的标准)-小于ES
那么谁能告诉我为什么这个数字在ES中更多。应该是一样的,对吗?
谢谢,拉克托
发布于 2014-08-06 13:13:43
在专家系统中发现了一些重复的记录。
所以,我正在做的是手动添加id (数据中的某个键,它总是唯一的),现在计数是相同的。
只需要添加一个表属性:TBLPROPERTIES(‘.,'es.mapping.id’= 'field_name_of_the_unique_id');在hive表创建中。
谢谢
https://stackoverflow.com/questions/24694051
复制相似问题