搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏Lansonli技术博客
2021年大数据Flink（十七）：Flink四大基石
---- Flink四大基石 Flink之所以能这么流行，离不开它最重要的四个基石：Checkpoint、State、Time、Window。 Checkpoint 这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照，从而提供了一致性的语义。 Chandy-Lamport算法实际上在1985年的时候已经被提出来，但并没有被很广泛的应用，而Flink则把这个算法发扬光大了。 Time 除此之外，Flink还实现了Watermark的机制，能够支持基于事件的时间的处理，能够容忍迟到/乱序的数据。 Window 另外流计算中一般在对流数据进行操作之前都会先进行开窗，即基于一个什么样的窗口上做这个计算。Flink提供了开箱即用的各种窗口，比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。
1.2K30发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（八）：Flink入门案例
，DataSetAPI已经不推荐使用了，后续其他案例都会优先使用DataStream流式API，既支持无界数据处理/流处理，也支持有界数据处理/批处理！ * 编码步骤 * 1.准备环境-env * 2.准备数据-source * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute//如果有 ; /** * Author lanson * Desc * 需求:使用Flink完成WordCount-DataStream * 编码步骤 * 1.准备环境-env * 2.准备数据-source 表达式 * 编码步骤 * 1.准备环境-env * 2.准备数据-source * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute 需求:使用Flink完成WordCount-DataStream--使用lambda表达式--修改代码使适合在Yarn上运行 * 编码步骤 * 1.准备环境-env * 2.准备数据-source
1.5K40发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（九）：Flink原理初探
、SubTask、Parallelism 1.Dataflow:Flink程序在执行的时候会被映射成一个数据流模型 2.Operator:数据流模型中的每一个操作被称作Operator,Operator .One to One模式：两个operator用此模式传递的时候，会保持数据的分区数和数据的排序；如上图中的Source1到Map1，它就保留的Source的分区特性，以及分区元素处理的有序性。 Flink执行图（ExecutionGraph）由Flink程序直接映射成的数据流图是StreamGraph，也被称为逻辑流图，因为它们表示的是计算逻辑的高级视图。为了执行一个流处理程序，Flink需要将逻辑流图转换为物理数据流图（也叫执行图），详细说明程序的执行方式。原理介绍 Flink执行executor会自动根据程序代码生成DAG数据流图 Flink 中的执行图可以分成四层：StreamGraph -> JobGraph -> ExecutionGraph ->
1.5K40发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（十八）：Flink Window操作
---- Flink-Window操作为什么需要Window 在流处理应用中，数据是连续不断的，有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口(window)，用来收集最近1分钟内的数据，并对这个窗口内的数据进行计算。 window 中， Flink提供了很多各种场景用的WindowAssigner：如果需要自己定制数据分发策略，则可以实现一个 class，继承自 WindowAssigner。 evictor--了解 evictor 主要用于做一些数据的自定义操作，可以在执行用户代码之前，也可以在执行用户代码之后，更详细的描述可以参考org.apache.flink.streaming.api.windowing.evictors.Evictor Flink 提供了如下三种通用的 evictor： * CountEvictor 保留指定数量的元素 * TimeEvictor 设定一个阈值 interval，删除所有不再 max_ts - interval
1.1K10发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（六）：Flink On Yarn模式
---- Flink On Yarn模式原理为什么使用Flink On Yarn? 在实际开发中，使用Flink时，更多的使用方式是Flink On Yarn模式，原因如下： -1.Yarn的资源可以按需使用，提高集群的资源利用率 -2.Yarn的任务有优先级，根据优先级运行作业 -3 此外，AppMaster容器也提供了Flink的web服务接口。 run(提交任务) 1.在yarn上启动一个Flink会话，node1上执行以下命令 /export/server/flink/bin/yarn-session.sh -n 2 -tm 800 -s run提交任务： /flink/bin/flink run /export/server/flink/examples/batch/WordCount.jar run /export/server
1.8K20发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（四十）：Flink模拟双十一实时大屏统计
目录 Flink模拟双十一实时大屏统计需求数据编码步骤: 1.env 2.source 3.transformation 4.使用上面聚合的结果,实现业务需求: 5.execute 参考代码实现代码 (基于上面参考代码重新写一套) 实现效果 ---- Flink模拟双十一实时大屏统计需求在大数据的实时处理中，实时的大屏展示已经成了一个很重要的展示项，比如最有名的双十一大屏实时销售总价展示。今天我们就做一个最简单的模拟电商统计大屏的小例子，需求如下： 1.实时计算出当天零点截止到当前时间的销售总额 2.计算出各个分类的销售top3 3.每秒钟更新一次统计结果数据首先我们通过自定义source 模拟订单的生成，生成了一个Tuple2,第一个元素是分类，第二个元素表示这个分类下产生的订单金额，金额我们通过随机生成. /** * 自定义数据源实时产生订单数据Tuple2<分类, 金额> */ Exception { Double totalAmount = 0d;//用来记录销售总额 //用大小顶堆来计算TopN //用大顶堆(大的数据在堆顶
1.5K31发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（二）：Flink用武之地
---- Flink用武之地 http://www.liaojiayi.com/flink-IoT/ https://flink.apache.org/zh/usecases.html 从很多公司的应用案例发现，其实Flink主要用在如下三大场景： Event-driven Applications【事件驱动】事件驱动型应用是一类具有状态的应用，它从一个或多个事件流提取数据，并根据到来的事件触发计算比如Flink应用凌晨从Recorded Events中读取昨天的数据，然后做周期查询运算，最后将数据写入Database或者HDFS，或者直接将数据生成报表供公司上层领导决策使用。 Periodic ETL：比如每天凌晨周期性的启动一个Flink ETL Job，读取传统数据库中的数据，然后做ETL，最后写入数据库和文件系统。 Data Pipeline：比如启动一个Flink 实时应用，数据源(比如数据库、Kafka)中的数据不断的通过Flink Data Pipeline流入或者追加到数据仓库(数据库或者文件系统)，或者Kafka
94150发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（二十五）：Flink 状态管理
---- Flink-状态管理 Flink中的有状态计算注意: Flink中已经对需要进行有状态计算的API,做了封装,底层已经维护好了状态! 为什么 Flink 知道之前已经处理过一次 hello world，这就是 state 发挥作用了，这里是被称为 keyed state 存储了之前需要统计的数据，所以 Flink 知道 hello 和，Managed State 由 Flink Runtime 管理，自动存储，自动恢复，在内存管理上有优化；而 Raw State 需要用户自己管理，需要自己序列化，Flink 不知道 State 中存入的数据是什么结构 Operator State 可以用于所有算子，但一般常用于 Source 存储State的数据结构/API介绍前面说过有状态计算其实就是需要考虑历史数据而历史数据需要搞个地方存储起来 Flink为了方便不同分类的保存Operator state的数据结构: ListState<T> BroadcastState<K,V> 举例来说，Flink中的FlinkKafkaConsumer，就使用了operator state
91430发布于 2021-10-09
来自专栏Lansonli技术博客
2021年大数据Flink（一）：乘风破浪的Flink-Flink概述
早期， Flink 是做 Batch 计算的，但是在 2014 年， StratoSphere 里面的核心成员孵化出 Flink，同年将 Flink 捐赠 Apache，并在后来成为 Apache 的顶级大数据项目，同时 Flink 计算的主流方向被定位为 Streaming，即用流式计算来做所有大数据的计算，这就是 Flink 技术诞生的背景。 2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。比如它提供了有状态的计算，支持状态管理，支持强一致性的数据语义以及支持基于Event Time的WaterMark对延迟或乱序的数据进行处理等富二代Flink https://blog.csdn.net 这样在各种不同的场景下，不管是全量数据还是增量数据，亦或者实时处理，一套方案即可全部支持，这就是阿里选择 Flink 的背景和初衷。
1.8K30发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（三十）：Flink Table API & SQL 介绍
/dev/table/ Flink的Table模块包括 Table API 和 SQL： Table API 是一种类SQL的API，通过Table API，用户可以像操作表一样操作数据，非常直观和方便 SQL作为一种声明式语言，有着标准的语法和规范，用户可以不用关心底层实现即可进行数据的处理，非常易于上手 Flink Table API 和 SQL 的实现上有80%左右的代码是公用的。标准稳定:语义遵循SQL标准，非常稳定，在数据库 30 多年的历史中，SQL 本身变化较少； 5. 在 Flink 1.9 中，Table 模块迎来了核心架构的升级，引入了阿里巴巴Blink团队贡献的诸多功能在Flink 1.9 之前，Flink API 层一直分为DataStream API 了解-Blink planner和Flink Planner具体区别如下： https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev
94920发布于 2021-10-09
来自专栏Lansonli技术博客
2021年大数据Flink（三）：Flink安装部署 Local本地模式
---- Flink安装部署 Flink支持多种安装模式 - Local—本地单机模式，学习测试时使用 - Standalone—独立集群模式，Flink自带集群，开发测试环境使用 - StandaloneHA —独立集群高可用模式，Flink自带集群，开发测试环境使用 - On Yarn—计算资源统一由Hadoop YARN管理，生产环境使用 Local本地模式原理 Flink程序由JobClient进行提交 root /export/server/flink-1.12.0 5.改名或创建软链接 mv flink-1.12.0 flink ln -s /export/server/flink-1.12.0 /flink/bin/flink run /export/server/flink/examples/batch/WordCount.jar --input /root/words.txt --output /root/out 6.停止Flink /export/server/flink/bin/stop-cluster.sh 启动shell交互式窗口(目前所有Scala 2.12版本的安装包暂时都不支持
1.1K20发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（二十七）：Flink 容错机制 Checkpoint
Java的堆内存中/TaskManage节点的内存中 State可以被记录，在失败的情况下数据还可以恢复 Checkpoint: 某一时刻,Flink中所有的Operator的当前State的全局快照, 一般存在磁盘上表示了一个Flink Job在一个特定时刻的一份全局状态快照，即包含了所有Operator的状态可以理解为Checkpoint是把State数据定时持久化存储了比如KafkaConsumer 算子中维护的Offset状态,当任务重新恢复的时候可以从Checkpoint中获取注意: Flink中的Checkpoint底层使用了Chandy-Lamport algorithm分布式快照算法可以保证数据的在分布式环境下的一致性 6.最后，当 Checkpoint coordinator 收集齐所有 task 的 state handle，就认为这一次的 Checkpoint 全局完成了，向持久化存储中再备份一个 Checkpoint 因为如果某个算子在节点A上失败，在节点B上恢复，使用本地文件时，在B上无法读取节点 A上的数据，导致状态恢复失败。
1.3K30发布于 2021-10-09
来自专栏Lansonli技术博客
2021年大数据Flink（二十九）：Flink 容错机制 Savepoint
Savepoint VS Checkpoint Savepoint演示 # 启动yarn session /export/server/flink/bin/yarn-session.sh -n 2 -tm 800 -s 1 -d # 运行job-会自动执行Checkpoint /export/server/flink/bin/flink run --class cn.itcast.checkpoint.CheckpointDemo01 /root/ckp.jar # 手动创建savepoint--相当于手动做了一次Checkpoint /export/server/flink/bin/flink savepoint 702b872ef80f08854c946a544f2ee1a5 hdfs://node1:8020/flink-checkpoint/savepoint/ # 停止job /export/server/flink/bin/flink cancel 702b872ef80f08854c946a544f2ee1a5 # 重新启动job,手动加载savepoint数据 /export/server/flink/bin/flink run -s hdfs://node1:8020/flink-checkpoint
73320发布于 2021-10-09
来自专栏大数据成神之路
6-Flink重启策略
概述 Flink支持不同的重启策略，以在故障发生时控制作业如何重启集群在启动时会伴随一个默认的重启策略，在没有定义具体重启策略时会使用该默认策略。如果在工作提交时指定了一个重启策略，该策略会覆盖集群的默认策略默认的重启策略可以通过 Flink 的配置文件 flink-conf.yaml 指定。如果启用了 checkpointing，但没有配置重启策略，则使用固定间隔 (fixed-delay) 策略重启策略可以在flink-conf.yaml中配置，表示全局的配置。 env.setRestartStrategy(RestartStrategies.noRestart()); }// } 公众号推荐全网唯一一个从0开始帮助Java开发者转做大数据领域的公众号 ~ 海量【java和大数据的面试题+视频资料】整理在公众号，关注后可以下载~ 更多大数据技术欢迎和作者一起探讨~ [1691a0d20e61eb0d?
59670发布于 2019-03-07
来自专栏腾讯云大数据
Flink 实践教程-入门（6）：读取 PG 数据写入 ClickHouse
作者：腾讯云流计算 Oceanus 团队流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时 Oceanus-3'); 笔者这里使用 DBeaver 进行外网连接，更多连接方式参考官网文档连接 PostgreSQL 实例 [5] 创建 ClickHouse 集群进入 ClickHouse 控制台 [6] 配合 flink-connector-clickhouse 使用。 Flink 集群需选择相应的内置 Connector 总结使用 Postgres-CDC 连接器：用于同步的 Postgres 用户至少需要开启 REPLICATION、LOGIN、SCHEMA document/product/409/56961 [5] 连接 PostgreSQL 实例：https://cloud.tencent.com/document/product/409/40429 [6]
1.3K10发布于 2021-11-15
来自专栏小道
Flink学习笔记(6) -- Flink Window和Time详解
二、Time 针对stream数据中的时间，可以分为以下三种: Event Time：事件产生的时间，它通常由事件中的时间戳描述。 Ingestion time：事件进入Flink的时间。 Flink中，默认Time类似是ProcessingTime，可以在代码中设置； ? ? 在使用eventTime的时候如何处理乱序数据？每次调用getCurrentWatermark 方法, 如果得到的WATERMARK 不为空并且比之前的大就注入流中；可以定义一个最大允许乱序的时间，这种比较常用；实现AssignerWithPeriodicWatermarks 如果得到的WATERMARK 不为空并且比之前的大就注入流中；实现AssignerWithPunctuatedWatermarks接口 ? Flink应该如何设置最大乱序时间？对于严重乱序的数据，需要严格统计数据最大延迟时间，才能保证计算的数据准确，延时设置太小会影响数据准确性，延时设置太大不仅影响数据的实时性，更加会加重Flink作业的负担，不是对eventTime要求特别严格的数据
75710发布于 2021-04-13
来自专栏Lansonli技术博客
2021年大数据Flink（七）：参数总结
参数总结 [root@node1 bin]# /export/server/flink/bin/flink --help . /flink <ACTION> [OPTIONS] [ARGUMENTS] The following actions are available: Action "run" compiles The available options can be found at https://ci.apache.org/projects/flink /flink- docs-stable/ops/config.html -m,--jobmanager <arg> -j,--jarfile <jarfile> Flink program JAR file.
1K60发布于 2021-10-11
来自专栏Lansonli技术博客
2021年大数据Flink（四十一）：Flink实现订单自动好评
---- Flink实现订单自动好评需求在电商领域会有这么一个场景，如果用户买了商品，在订单完成之后，一定时间之内没有做出评价，系统自动给与五星好评，我们今天主要使用Flink的定时器来简单实现这一功能数据自定义source模拟生成一些订单数据. ; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.configuration.Configuration; ; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.configuration.Configuration; ) * 我们今天主要使用Flink的定时器来简单实现这一功能。
92430发布于 2021-10-11
来自专栏腾讯云流计算 Oceanus
Flink 实践教程：入门6-读取 PG 数据写入 ClickHouse
流计算 Oceanus 简介流计算 Oceanus 是大数据产品生态体系的实时化分析利器，是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台 Oceanus-3'); 笔者这里使用 DBeaver 进行外网连接，更多连接方式参考官网文档连接 PostgreSQL 实例 [5] 创建 ClickHouse 集群进入 ClickHouse 控制台 [6] 配合 flink-connector-clickhouse 使用。 REPLACE(str_thr,'Oceanus','Hello Oceanus') AS str_thr FROM PostgreSourceTable; 这里我们使用 Flink 1.13 集群， document/product/409/56961 [5] 连接 PostgreSQL 实例：https://cloud.tencent.com/document/product/409/40429 [6]
1.9K71编辑于 2021-12-08
来自专栏Lansonli技术博客
2021年大数据Flink（四十二）：BroadcastState
Broadcast State 是 Flink 1.5 引入的新特性。下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中。 ()方法处理后输出结果数据记录的类型。 org.apache.flink.api.java.tuple.Tuple4; import org.apache.flink.api.java.tuple.Tuple6; import org.apache.flink.configuration.Configuration broadcastState.clear(); //最后将最新的广播流数据放到state中（更新状态数据） org.apache.flink.api.java.tuple.Tuple6; import org.apache.flink.configuration.Configuration; import
1K30发布于 2021-10-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

2021年大数据Flink（十七）：Flink四大基石

2021年大数据Flink（八）：Flink入门案例

2021年大数据Flink（九）：Flink原理初探

2021年大数据Flink（十八）：Flink Window操作

2021年大数据Flink（六）：Flink On Yarn模式

2021年大数据Flink（四十）：Flink模拟双十一实时大屏统计

2021年大数据Flink（二）：Flink用武之地

2021年大数据Flink（二十五）：Flink 状态管理

2021年大数据Flink（一）：乘风破浪的Flink-Flink概述

2021年大数据Flink（三十）：Flink Table API & SQL 介绍

2021年大数据Flink（三）：Flink安装部署 Local本地模式

2021年大数据Flink（二十七）：Flink 容错机制 Checkpoint

2021年大数据Flink（二十九）：Flink 容错机制 Savepoint

6-Flink重启策略

Flink 实践教程-入门（6）：读取 PG 数据写入 ClickHouse

Flink学习笔记(6) -- Flink Window和Time详解

2021年大数据Flink（七）：参数总结

2021年大数据Flink（四十一）：Flink实现订单自动好评

Flink 实践教程：入门6-读取 PG 数据写入 ClickHouse

2021年大数据Flink（四十二）：BroadcastState

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2021年大数据Flink（十七）：Flink四大基石

2021年大数据Flink（八）：Flink入门案例

2021年大数据Flink（九）：Flink原理初探

2021年大数据Flink（十八）：Flink Window操作

2021年大数据Flink（六）：Flink On Yarn模式

2021年大数据Flink（四十）：​​​​​​​Flink模拟双十一实时大屏统计

2021年大数据Flink（二）：Flink用武之地

2021年大数据Flink（二十五）：Flink 状态管理

2021年大数据Flink（一）：乘风破浪的Flink-Flink概述

2021年大数据Flink（三十）：Flink ​​​​​​​Table API & SQL 介绍

2021年大数据Flink（三）：​​​​​​​Flink安装部署 Local本地模式

2021年大数据Flink（二十七）：Flink 容错机制 Checkpoint

2021年大数据Flink（二十九）：Flink 容错机制 Savepoint

6-Flink重启策略

Flink 实践教程-入门（6）：读取 PG 数据写入 ClickHouse

Flink学习笔记(6) -- Flink Window和Time详解

2021年大数据Flink（七）：​​​​​​​参数总结

2021年大数据Flink（四十一）：​​​​​​​Flink实现订单自动好评

Flink 实践教程：入门6-读取 PG 数据写入 ClickHouse

2021年大数据Flink（四十二）：​​​​​​​BroadcastState

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

2021年大数据Flink（四十）：Flink模拟双十一实时大屏统计

2021年大数据Flink（三十）：Flink Table API & SQL 介绍

2021年大数据Flink（三）：Flink安装部署 Local本地模式

2021年大数据Flink（七）：参数总结

2021年大数据Flink（四十一）：Flink实现订单自动好评

2021年大数据Flink（四十二）：BroadcastState