首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在hadoop上安装和配置elasticsearch

在hadoop上安装和配置elasticsearch
EN

Stack Overflow用户
提问于 2016-03-09 19:51:26
回答 1查看 3.1K关注 0票数 2

我已经阅读过这个页面和其他相关链接,以便在hadoop上安装和配置elasticsearch。在hadoop上安装和配置elasticsearch?

但是,我没有什么问题。

我分别使用elasticsearch和spark/hadoop;具体而言,我使用的是cloudera和elasticsearch,它们运行在其他linux机器上。在hadoop中,我有一个边缘节点来提交火花作业,作业通过配置的执行器在其他6个节点上运行。

  1. 下面这个安装指南对我来说信息不多。

(1)当我在每个节点上安装elasticsearch-hadoop二进制文件时,Elasticsearch在HDFS上保留索引?(2)如果是,我需要将jar二进制文件放在哪里?弹性搜索-火花_2.11-2.2.0.jar弹性搜索-hadoop-2.2.0.jar

实际上,使用elasticsearch-hadoop-2.2.0.jar,我可以从运行在linux机器上的elasticsearch中读取/写入文档。

代码语言:javascript
复制
sc.makeRDD(docs).saveToEs(indexname + "/" + typename, Map( "es.nodes" -> ES_HOSTN_ODE_ADDRESS, "es.port" -> ES_HOST_PORT))

(3)如何为hdfs设置数据路径?目前,elasticsearch已经配置为

代码语言:javascript
复制
path.data: /data1,/data2,/data3,/data4

(4)是否有其他好的文件/页可供参考?

代码语言:javascript
复制
elasticsearch-hadoop binaries can be obtained either by downloading them from the elastic.co site as a ZIP (containing project jars, sources and documentation) or by using any Maven-compatible tool with the following dependency:


<dependency>
      <groupId>org.elasticsearch</groupId>
      <artifactId>elasticsearch-hadoop</artifactId>
      <version>2.2.0</version>
    </dependency>

jar above contains all the features of elasticsearch-hadoop and does not require any other dependencies at runtime; in other words it can be used as is.        elasticsearch-hadoop binary is suitable for both Hadoop 1.x and Hadoop 2.x (also known as YARN) environments without any changes.
  1. 使用spark上的scala,我可以从elasticsearch查询文档,但是查询的数据并不是针对每个执行器并行的。如果我使用来自hdfs的elasticsearch-hadoop和查询数据,数据就会自动并行化(RDD),就像拼花文件一样,而不必 Sc.parallelize(数据);
  2. 对我来说,使用几个工具(如Kibana )进行可视化非常重要。与elasticsearch相比,elasticsearch-hadoop有什么强大的优势吗?
EN

回答 1

Stack Overflow用户

发布于 2016-03-10 12:20:09

来自Elasticsearch的网站

Apache的Elasticsearch是一个开源的、独立的、独立的、自我包含的库,它允许Hadoop作业(无论是使用Map/Reduce,还是建立在它之上的库,例如Hive、Pig或Cascading,或者像Apache这样的新的库)与Elasticsearch交互。人们可以把它看作是一个连接器,它允许数据双向流动,这样应用程序就可以透明地利用Elasticsearch功能来显着地丰富它们的功能并提高性能。

因此,根据我对你们提问的理解,

(1)当我在每个节点上安装elasticsearch-hadoop二进制文件时,Elasticsearch在HDFS上保留索引?

不,Elasticsearch-Hadoop是一个库,Hadoop作业可以通过这个库向Elasticsearch加载或存储数据。

(2)如果是,我需要将jar二进制文件放在哪里?弹性搜索-火花_2.11-2.2.0.jar弹性搜索-hadoop-2.2.0.jar

这些库必须存在于星火星火:在类路径中添加外接罐或Hadoop:在类路径中添加外接罐作业的类路径中。

(3)如何为hdfs设置数据路径?

我不认为这一步是访问Hadoop/火花作业中的elasticsearch数据所必需的。

(4)是否有其他好的文件/页可供参考?

为了我的目的,我推荐了Elasticsearch Apache Spark :本机支持

  1. 使用spark上的scala,我可以从elasticsearch查询文档,但是查询的数据并不是针对每个执行器并行的。如果我使用elasticsearch并查询来自hdfs的数据,数据就会自动并行化(RDD),就像拼花文件一样,而不需要sc.parallelize(数据);

是的你是对的。与Elasticsearch Java/Scala客户端相比,使用Elasticsearch-Hadoop和Elasticsearch- same的优势与使用Hadoop或Spark的固有优势相同,即在集群上分配处理负载。

  1. 对我来说,使用几个工具(如Kibana )进行可视化非常重要。与elasticsearch相比,elasticsearch-hadoop有什么强大的优势吗?

如前所述,'elasticsearch-hadoop‘只是一个库。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/35901289

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档