如何为pig脚本定制HbaseStorage?实际上,在将数据加载到pig脚本之前,我想对数据执行一些业务逻辑。它将类似于在HbaseStorage之上的自定义存储。
例如,我的行键具有这样的A_B_C结构。目前,我在pig脚本的HbaseStorage中传递A_B_C键,但在将输入数据提供给实际的pig脚本之前,我想执行一些逻辑,比如对A_B_C_D键进行过滤等。这怎么可能呢?
发布于 2013-11-23 01:06:56
您可能最终不得不查看HBaseStorage java类,并在此基础上实现您自己的类。根据HBaseStorage和相关类是如何编写的,这可能很简单(只需扩展HBaseStorage本身并在必要时重写),也可能是真正令人头疼的事情。
然后,您必须确保包含代码的.jar位于pig类路径上。
发布于 2013-11-27 03:42:59
我发现HbaseStorage真的很麻烦,所以我编写了常规的Java MR作业来查询HBase并创建自定义序列文件,然后通过一个简单的自定义加载器从Pig中使用这些文件。我发现这节省了大量的时间,因为序列文件可以在一天中多次重复使用以获得快速结果,而不是在Hbase中扫描每个Pig脚本的所有内容。
https://stackoverflow.com/questions/20150399
复制相似问题