首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >elasticsearch-hadoop for Spark。在不同的索引中从RDD发送文档(按日计算)

elasticsearch-hadoop for Spark。在不同的索引中从RDD发送文档(按日计算)
EN

Stack Overflow用户
提问于 2015-01-15 15:46:12
回答 2查看 3.3K关注 0票数 4

我使用Spark处理复杂的工作流(解析、清理、机器学习.)。在工作流的末尾,我希望将聚合的结果发送到elasticsearch,这样我的门户就可以查询数据。将有两种类型的处理:流处理和对所有可用数据重新启动工作流的可能性。

现在,我使用elasticsearch-hadoop,特别是使用saveJsonToEs(myindex/mytype)方法将文档发送到elasticsearch。目标是使用我们构建的适当模板在一天内建立一个索引。AFAIK您不能在文档中添加对特性的考虑,以便将其发送到elasticsearch-hadoop中的适当索引。

实现此功能的正确方法是什么?有一个特殊的步骤,使用火花和散装,以便每个执行者发送文件到适当的索引考虑到每一行的特点?我在elasticsearch-hadoop有什么遗漏吗?

我尝试使用saveJsonToEs(" _bulk ")将JSON发送到_bulk,但模式必须遵循索引/类型

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-01-19 16:07:18

多亏了Costin Leau,我找到了解决办法。只需使用像saveJsonToEs这样的动态索引(“my-index-{date}/my-type”)。“日期”必须是必须发送的文档中的一个功能。

关于elasticsearch:https://groups.google.com/forum/#!topic/elasticsearch/5-LwjQxVlhk的讨论

文档:http://www.elasticsearch.org/guide/en/elasticsearch/hadoop/master/spark.html#spark-write-dyn

票数 3
EN

Stack Overflow用户

发布于 2016-09-15 06:59:55

可以使用:(“自定义索引-{date}/customtype”)创建动态索引。这可能是给定rdd中的任何字段。

如果您想格式化日期:("custom-index-{date:{YYYY.mm.dd}}/customtype")在评论中回答了Amit_Hora的问题,因为我没有足够的权限发表评论,我在这里添加以下内容

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27967323

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档