我有10兆字节大小的数据集。我目前的数据是在HBase中,在那里我使用的是火花HbaseContext,但是它的性能并不好。
在星火上将数据从HbaseContext转移到HiveContext会有用吗?
发布于 2018-10-22 11:48:28
HiveContext用于从Hive读取数据。因此,如果您切换到HiveContext,数据必须在Hive中。我不认为你正在尝试的东西会奏效。
发布于 2018-10-22 12:51:28
在我的用例中,我使用带有内部mapPartition连接的HBase。关键是要知道如何分开。
对于扫描,你可以创建你自己的扫描仪,带有前缀,等等.为了得到它更容易。对于puts,可以创建要执行的puts列表,然后进行批处理插入。
我不使用任何HBaseContext,我在拥有12亿行的数据库上有很好的性能。
https://stackoverflow.com/questions/49111512
复制相似问题