我有一个elasticsearch集群,它有大量的数据。我想将elasticsearch中的所有数据提取到Hadoop(Hive)中。为了使用Hive外部表从elasticsearch提取数据,我使用了Elasticsearch-Hadoop驱动程序,但是它太慢,总是失败。
我的第一个问题是从现有的elasticsearch集群中获取所有数据。第二个问题是在一天或一小时内复制所有流到HDFS上的elasticsearch中的数据。
我怎样才能做到这些呢?
提前谢谢。
发布于 2015-04-10 10:01:11
您可以使用hadoop系统作为仓库来存储数据,从那里可以将数据推送到elasticsearch &副versa.Try,只对要对当前进行分析的数据使用elasticsearch,从elasticsearch删除其余的数据。因此,每次您想要对不同方面进行分析时,从hadoop中提取数据并使用它。
https://stackoverflow.com/questions/29036496
复制相似问题