文章/答案/技术大牛

发布

社区首页 >问答首页 >Apache Flink: IDE执行中的作业恢复未按预期工作

问Apache Flink: IDE执行中的作业恢复未按预期工作
EN

Stack Overflow用户

提问于 2019-04-15 04:06:06

回答 2查看 702关注 0票数 1

我有一个用Flink (Scala)编写的示例流式WordCount示例。在它中，我想使用外部化的检查点在失败的情况下进行恢复。但它并没有像预期的那样工作。

我的代码如下：

object WordCount {
  def main(args: Array[String]) {
    // set up the execution environment
    val env = StreamExecutionEnvironment
      .getExecutionEnvironment
      .setStateBackend(new RocksDBStateBackend("file:///path/to/checkpoint", true))

    // start a checkpoint every 1000 ms
    env.enableCheckpointing(1000)

    // set mode to exactly-once (this is the default)
    env.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)

    // make sure 500 ms of progress happen between checkpoints
    env.getCheckpointConfig.setMinPauseBetweenCheckpoints(500)

    // checkpoints have to complete within one minute, or are discarded
    env.getCheckpointConfig.setCheckpointTimeout(60000)

    // prevent the tasks from failing if an error happens in their checkpointing, the checkpoint will just be declined.
    env.getCheckpointConfig.setFailOnCheckpointingErrors(false)

    // allow only one checkpoint to be in progress at the same time
    env.getCheckpointConfig.setMaxConcurrentCheckpoints(1)

    // prepare Kafka consumer properties
    val kafkaConsumerProperties = new Properties
    kafkaConsumerProperties.setProperty("zookeeper.connect", "localhost:2181")
    kafkaConsumerProperties.setProperty("group.id", "flink")
    kafkaConsumerProperties.setProperty("bootstrap.servers", "localhost:9092")

    // set up Kafka Consumer
    val kafkaConsumer = new FlinkKafkaConsumer[String]("input", new SimpleStringSchema, kafkaConsumerProperties)

    println("Executing WordCount example.")

    // get text from Kafka
    val text = env.addSource(kafkaConsumer)

    val counts: DataStream[(String, Int)] = text
      // split up the lines in pairs (2-tuples) containing: (word,1)
      .flatMap(_.toLowerCase.split("\\W+"))
      .filter(_.nonEmpty)
      .map((_, 1))
      // group by the tuple field "0" and sum up tuple field "1"
      .keyBy(0)
      .mapWithState((in: (String, Int), count: Option[Int]) =>
        count match {
          case Some(c) => ((in._1, c), Some(c + in._2))
          case None => ((in._1, 1), Some(in._2 + 1))
        })

    // emit result
    println("Printing result to stdout.")
    counts.print()

    // execute program
    env.execute("Streaming WordCount")
  }
}

我第一次运行程序后得到的输出是：

(hi, 1)
(hi, 2)

第二次运行程序后得到的输出是：

(hi, 1)

我的期望是第二次运行程序会得到以下输出：

(hi, 3)

由于我是Apache Flink的新手，我不知道如何才能达到预期的效果。有人能帮我实现正确的行为吗？

apache-flink

flink-streaming

checkpointing

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-04-15 19:00:34

如果应用程序在同一执行中重新启动(常规、自动恢复)，则Flink仅从最新的检查点重新启动。

如果取消在IDE的本地执行环境中运行的作业，则会杀死整个群集，并且无法自动恢复该作业。相反，您需要重新启动它。为了从保存点(或外部化检查点)重新启动新作业，您需要提供持久保存点/检查点的路径。不确定这在本地执行环境中是否可行。

在本地Flink实例上，而不是在IDE中，使用检查点和恢复会更容易。

票数 5

Stack Overflow用户

发布于 2020-12-17 08:31:48

我之前也遇到过同样的问题，但我用MiniCluster解决了这个问题。正如这里提到的- http://mail-archives.apache.org/mod_mbox/flink-user/201702.mbox/%3CCAO_f5ND=0f+uBbReSfThMBi-bnY4BjGBozo3fzEsZujiovb_-g@mail.gmail.com%3E

我在文档中没有找到很多关于MiniCluster的文档，所以我不确定这是不是推荐的方式。

在作业完全重启时，我必须编写一小段代码来识别存储在具有_metadata目录的检查点目录(/jobId/chk-*)下的最新检查点。然后使用streamGraph.setSavepointRestoreSettings(SavepointRestoreSettings.forPath(s)从此检查点恢复状态。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/55679553

复制

相似问题

问Apache Flink: IDE执行中的作业恢复未按预期工作
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Flink: IDE执行中的作业恢复未按预期工作EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Apache Flink: IDE执行中的作业恢复未按预期工作
EN