首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >HBase大容量加载到多个表中

HBase大容量加载到多个表中
EN

Stack Overflow用户
提问于 2014-06-04 08:47:28
回答 1查看 624关注 0票数 1

我们使用的是HBase批量加载技术,如:http://blog.cloudera.com/blog/2013/09/how-to-use-hbase-bulk-loading-and-why/ (即:直接使用HFileOutputFormat创建HFiles )中解释的那样。

我们必须使用此选项将遗留系统中的所有数据预先填充到HBase集群中。

由于HBase不支持辅助表(或索引),所以我们在应用程序级别上维护辅助表(或索引)。

现在的问题是,我们如何使用大容量加载技术来创建不同表的HFiles (主表和辅助表/索引)。有没有多个HFileOutputFormat(比如HFileMultiOutputFormat)?

我知道,我们可以创建多个乔布斯,并分别管理每一项工作。成本来自对这么多数据的“解读”(多于少数TB)。我想找到一种能读一遍写多遍的方法。链接乔布斯先生没有帮助,因为所有的地图任务都需要相同的数据,链接限制了第二个地图任务,以获得第一个地图任务的输出。

类似的问题也被问到了这里这里。但是他们没有答案,所以再试一次。

EN

回答 1

Stack Overflow用户

发布于 2014-06-04 21:09:44

首先是非常有效的要求。

实现的第一步是了解和理解HFileOutputFormat:HFileOutputFormat的代码。

您感兴趣的部分是它使用列族创建的目录结构。您将希望使用表->列族-> HFile创建目录结构

您可以使用多个输出来编写diff表数据。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24032871

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档