文章/答案/技术大牛

发布

社区首页 >问答首页 >如何确保在Spark Streaming中使用Elasticsearch-Hadoop连接器写入Elasticsearch集成的所有文档

问如何确保在Spark Streaming中使用Elasticsearch-Hadoop连接器写入Elasticsearch集成的所有文档
EN

Stack Overflow用户

提问于 2019-09-27 21:46:29

回答 1查看 58关注 0票数 0

我正在使用Elasticsearch-Hadoop连接器将DStream写到Elasticsearch。这是您可以找到的连接器https://www.elastic.co/guide/en/elasticsearch/hadoop/5.6/spark.html的链接

我需要处理窗口，使用"JavaEsSpark.saveToEs“方法将所有文档写入ES，并希望确保所有写入的文档和提交到Kafka的偏移量。由于JavaEsSpark.saveToEs以批处理模式插入文档，因此我无法跟踪我的文档。

我的基本代码如下。有什么意见吗？

    dstream.foreachRDD((items, time) -> {
        JavaEsSpark.saveToEs(items,"myindex/mytype");
        //wait until all the documents written
        //do somehing else then return (actually the job is committing kafka offsets)
});

spark-streaming

spark-streaming-kafka

elasticsearch-hadoop

apache-spark

elasticsearch

回答 1

Stack Overflow用户

发布于 2020-03-23 18:00:21

您可以将您的函数封装在Try中(这是一个Scala示例)：

 Try {
  rdd.saveToEs(AppSettings.Elastic.Resource, configuration)
} match {
  case Failure(f) =>
    logger.error(s"SaveToEs failed: $f") //or whatever you want
  case _ =>
}

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58135855

复制

相似问题

问如何确保在Spark Streaming中使用Elasticsearch-Hadoop连接器写入Elasticsearch集成的所有文档
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确保在Spark Streaming中使用Elasticsearch-Hadoop连接器写入Elasticsearch集成的所有文档EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何确保在Spark Streaming中使用Elasticsearch-Hadoop连接器写入Elasticsearch集成的所有文档
EN