我使用的是PutHBaseJSon处理器,它将从hdfs位置获取数据,并将其放入hdfs位置的hbase.The数据中,格式如下,这是在单个文件中。
{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"}
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"}当我执行PutHBaseJSon处理器时,它只读取第一行并将其放入我创建的hbase表中。难道我们不能使用这个处理器获取该文件中的所有行吗?或者如何将单个文件中的所有记录提取到hbase?
发布于 2016-06-14 19:40:06
PutHBaseJSON接受单个JSON文档作为输入。从HDFS获取数据后,您应该能够使用行数为1的SplitText处理器将每个JSON文档放入一个流文件中。
如果你在一个HDFS文件中有数以百万计的SplitText记录,那么你应该执行两个阶段的拆分,第一个SplitText应该拆分,比如10,000行,然后第二个JSON应该拆分成每行1行。
发布于 2021-06-16 15:47:54
您可以使用SplitJson处理器将它们拆分为单独的记录,并将它们串行地发送到puthbasejson
https://stackoverflow.com/questions/37803391
复制相似问题