我已经阅读过这个页面和其他相关链接,以便在hadoop上安装和配置elasticsearch。在hadoop上安装和配置elasticsearch?
但是,我没有什么问题。
我分别使用elasticsearch和spark/hadoop;具体而言,我使用的是cloudera和elasticsearch,它们运行在其他linux机器上。在hadoop中,我有一个边缘节点来提交火花作业,作业通过配置的执行器在其他6个节点上运行。
(1)当我在每个节点上安装elasticsearch-hadoop二进制文件时,Elasticsearch在HDFS上保留索引?(2)如果是,我需要将jar二进制文件放在哪里?弹性搜索-火花_2.11-2.2.0.jar弹性搜索-hadoop-2.2.0.jar
实际上,使用elasticsearch-hadoop-2.2.0.jar,我可以从运行在linux机器上的elasticsearch中读取/写入文档。
sc.makeRDD(docs).saveToEs(indexname + "/" + typename, Map( "es.nodes" -> ES_HOSTN_ODE_ADDRESS, "es.port" -> ES_HOST_PORT))(3)如何为hdfs设置数据路径?目前,elasticsearch已经配置为
path.data: /data1,/data2,/data3,/data4(4)是否有其他好的文件/页可供参考?
elasticsearch-hadoop binaries can be obtained either by downloading them from the elastic.co site as a ZIP (containing project jars, sources and documentation) or by using any Maven-compatible tool with the following dependency:
<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch-hadoop</artifactId>
<version>2.2.0</version>
</dependency>
jar above contains all the features of elasticsearch-hadoop and does not require any other dependencies at runtime; in other words it can be used as is. elasticsearch-hadoop binary is suitable for both Hadoop 1.x and Hadoop 2.x (also known as YARN) environments without any changes.发布于 2016-03-10 12:20:09
来自Elasticsearch的网站
Apache的Elasticsearch是一个开源的、独立的、独立的、自我包含的库,它允许Hadoop作业(无论是使用Map/Reduce,还是建立在它之上的库,例如Hive、Pig或Cascading,或者像Apache这样的新的库)与Elasticsearch交互。人们可以把它看作是一个连接器,它允许数据双向流动,这样应用程序就可以透明地利用Elasticsearch功能来显着地丰富它们的功能并提高性能。
因此,根据我对你们提问的理解,
(1)当我在每个节点上安装elasticsearch-hadoop二进制文件时,Elasticsearch在HDFS上保留索引?
不,Elasticsearch-Hadoop是一个库,Hadoop作业可以通过这个库向Elasticsearch加载或存储数据。
(2)如果是,我需要将jar二进制文件放在哪里?弹性搜索-火花_2.11-2.2.0.jar弹性搜索-hadoop-2.2.0.jar
这些库必须存在于星火星火:在类路径中添加外接罐或Hadoop:在类路径中添加外接罐作业的类路径中。
(3)如何为hdfs设置数据路径?
我不认为这一步是访问Hadoop/火花作业中的elasticsearch数据所必需的。
(4)是否有其他好的文件/页可供参考?
为了我的目的,我推荐了Elasticsearch Apache Spark :本机支持。
是的你是对的。与Elasticsearch Java/Scala客户端相比,使用Elasticsearch-Hadoop和Elasticsearch- same的优势与使用Hadoop或Spark的固有优势相同,即在集群上分配处理负载。
如前所述,'elasticsearch-hadoop‘只是一个库。
https://stackoverflow.com/questions/35901289
复制相似问题