---- Flink四大基石 Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。 Checkpoint 这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。 Chandy-Lamport算法实际上在1985年的时候已经被提出来,但并没有被很广泛的应用,而Flink则把这个算法发扬光大了。 Time 除此之外,Flink还实现了Watermark的机制,能够支持基于事件的时间的处理,能够容忍迟到/乱序的数据。 Window 另外流计算中一般在对流数据进行操作之前都会先进行开窗,即基于一个什么样的窗口上做这个计算。Flink提供了开箱即用的各种窗口,比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。
: Flink DataStream API Programming Guide 1.准备环境-env 2.准备数据-source 3.处理数据-transformation 4.输出结果-sink * 编码步骤 * 1.准备环境-env * 2.准备数据-source * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute//如果有 * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute */ public class WordCount2 { public static 表达式 * 编码步骤 * 1.准备环境-env * 2.准备数据-source * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute * 3.处理数据-transformation * 4.输出结果-sink * 5.触发执行-execute//批处理不需要调用!
、SubTask、Parallelism 1.Dataflow:Flink程序在执行的时候会被映射成一个数据流模型 2.Operator:数据流模型中的每一个操作被称作Operator,Operator 分为:Source/Transform/Sink 3.Partition:数据流模型是分布式的和并行的,执行中会形成1~n个分区 4.Subtask:多个分区任务可以并行,每一个都是独立运行在一个线程中的 Flink执行图(ExecutionGraph) 由Flink程序直接映射成的数据流图是StreamGraph,也被称为逻辑流图,因为它们表示的是计算逻辑的高级视图。 为了执行一个流处理程序,Flink需要将逻辑流图转换为物理数据流图(也叫执行图),详细说明程序的执行方式。 原理介绍 Flink执行executor会自动根据程序代码生成DAG数据流图 Flink 中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph ->
---- Flink-Window操作 为什么需要Window 在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。 --用的较多 2.基于时间的滑动窗口sliding-time-window--用的较多 3.基于数量的滚动窗口tumbling-count-window--用的较少 4.基于数量的滑动窗口sliding-count-window --用的较少 注意:Flink还支持一个特殊的窗口:Session会话窗口,需要设置一个会话超时时间,如30s,则表示30s内没有数据到来,则触发上个窗口的计算 Window的API window和windowAll window 中, Flink提供了很多各种场景用的WindowAssigner: 如果需要自己定制数据分发策略,则可以实现一个 class,继承自 WindowAssigner。 evictor--了解 evictor 主要用于做一些数据的自定义操作,可以在执行用户代码之前,也可以在执行 用户代码之后,更详细的描述可以参考org.apache.flink.streaming.api.windowing.evictors.Evictor
---- Flink On Yarn模式 原理 为什么使用Flink On Yarn? 在实际开发中,使用Flink时,更多的使用方式是Flink On Yarn模式,原因如下: -1.Yarn的资源可以按需使用,提高集群的资源利用率 -2.Yarn的任务有优先级,根据优先级运行作业 -3 YARN所分配的所有端口都是临时端口,这允许用户并行执行多个Flink 4.ApplicationMaster向ResourceManager申请工作资源,NodeManager加载Flink的Jar包和配置构建环境并启动 run提交任务: /flink/bin/flink run /export/server/flink/examples/batch/WordCount.jar run /export/server /flink/examples/batch/WordCount.jar 4.通过上方的ApplicationMaster可以进入Flink的管理界面 5.关闭yarn-session: yarn application
目录 Flink模拟双十一实时大屏统计 需求 数据 编码步骤: 1.env 2.source 3.transformation 4.使用上面聚合的结果,实现业务需求: 5.execute 参考代码 实现代码 (基于上面参考代码重新写一套) 实现效果 ---- Flink模拟双十一实时大屏统计 需求 在大数据的实时处理中,实时的大屏展示已经成了一个很重要的展示项,比如最有名的双十一大屏实时销售总价展示。 今天我们就做一个最简单的模拟电商统计大屏的小例子, 需求如下: 1.实时计算出当天零点截止到当前时间的销售总额 2.计算出各个分类的销售top3 3.每秒钟更新一次统计结果 数据 首先我们通过自定义source //2--堆顶 //3 //4--堆底 //5进来,比堆顶大,堆顶元素移除,5下沉 //3 //100进来,比堆顶大,堆顶元素移除,100下沉 //4 //5 //100 //注意:Java里面提供了一个优先级队列
---- Flink用武之地 http://www.liaojiayi.com/flink-IoT/ https://flink.apache.org/zh/usecases.html 从很多公司的应用案例发现 ,其实Flink主要用在如下三大场景: Event-driven Applications【事件驱动】 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算 比如Flink应用凌晨从Recorded Events中读取昨天的数据,然后做周期查询运算,最后将数据写入Database或者HDFS,或者直接将数据生成报表供公司上层领导决策使用。 Periodic ETL:比如每天凌晨周期性的启动一个Flink ETL Job,读取传统数据库中的数据,然后做ETL,最后写入数据库和文件系统。 Data Pipeline:比如启动一个Flink 实时应用,数据源(比如数据库、Kafka)中的数据不断的通过Flink Data Pipeline流入或者追加到数据仓库(数据库或者文件系统),或者Kafka
(value)进行聚合就是求sum DataStream<Tuple2<String, Integer>> result = groupedDS.sum(1); //4. 为什么 Flink 知道之前已经处理过一次 hello world,这就是 state 发挥作用了,这里是被称为 keyed state 存储了之前需要统计的数据,所以 Flink 知道 hello 和 下面列举了常见的 4 种: 1.去重:比如上游的系统数据可能会有重复,落到下游系统时希望把重复的数据都去掉。 4.访问历史数据:比如与昨天的数据进行对比,需要访问一些历史数据。如果每次从外部去读,对资源的消耗可能比较大,所以也希望把这些历史数据也放入状态中做对比。 Operator State 可以用于所有算子,但一般常用于 Source 存储State的数据结构/API介绍 前面说过有状态计算其实就是需要考虑历史数据 而历史数据需要搞个地方存储起来 Flink为了方便不同分类的
早期, Flink 是做 Batch 计算的,但是在 2014 年, StratoSphere 里面的核心成员孵化出 Flink,同年将 Flink 捐赠 Apache,并在后来成为 Apache 的顶级大数据项目 ,同时 Flink 计算的主流方向被定位为 Streaming, 即用流式计算来做所有大数据的计算,这就是 Flink 技术诞生的背景。 2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。 比如它提供了有状态的计算,支持状态管理,支持强一致性的数据语义以及支持 基于Event Time的WaterMark对延迟或乱序的数据进行处理等 富二代Flink https://blog.csdn.net 这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择 Flink 的背景和初衷。
/dev/table/ Flink的Table模块包括 Table API 和 SQL: Table API 是一种类SQL的API,通过Table API,用户可以像操作表一样操作数据,非常直观和方便 SQL作为一种声明式语言,有着标准的语法和规范,用户可以不用关心底层实现即可进行数据的处理,非常易于上手 Flink Table API 和 SQL 的实现上有80%左右的代码是公用的。 简单易学:易于理解,不同行业和领域的人都懂,学习成本较低; 4. 标准稳定:语义遵循SQL标准,非常稳定,在数据库 30 多年的历史中,SQL 本身变化较少; 5. 在 Flink 1.9 中,Table 模块迎来了核心架构的升级,引入了阿里巴巴Blink团队贡献的诸多功能 在Flink 1.9 之前,Flink API 层 一直分为DataStream API 了解-Blink planner和Flink Planner具体区别如下: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev
Java的堆内存中/TaskManage节点的内存中 State可以被记录,在失败的情况下数据还可以恢复 Checkpoint: 某一时刻,Flink中所有的Operator的当前State的全局快照, 一般存在磁盘上 表示了一个Flink Job在一个特定时刻的一份全局状态快照,即包含了所有Operator的状态 可以理解为Checkpoint是把State数据定时持久化存储了 比如KafkaConsumer 算子中维护的Offset状态,当任务重新恢复的时候可以从Checkpoint中获取 注意: Flink中的Checkpoint底层使用了Chandy-Lamport algorithm分布式快照算法可以保证数据的在分布式环境下的一致性 4.下游的 sink 节点收集齐上游两个 input 的 barrier 之后,会执行本地快照,(栅栏对齐) 这里还展示了 RocksDB incremental Checkpoint (增量Checkpoint )的流程,首先 RocksDB 会全量刷数据到磁盘上(红色大三角表示),然后 Flink 框架会从中选择没有上传的文件进行持久化备份(紫色小三角)。
---- Flink安装部署 Flink支持多种安装模式 - Local—本地单机模式,学习测试时使用 - Standalone—独立集群模式,Flink自带集群,开发测试环境使用 - StandaloneHA _2.12.tgz到node1的指定目录 3.解压 tar -zxvf flink-1.12.0-bin-scala_2.12.tgz 4.如果出现权限问题,需要修改权限 chown -R root: root /export/server/flink-1.12.0 5.改名或创建软链接 mv flink-1.12.0 flink ln -s /export/server/flink-1.12.0 StandaloneSessionClusterEntrypoint 4.访问Flink的Web UI http://node1:8081/#/overview 5.执行官方示例 /export/server /flink/bin/flink run /export/server/flink/examples/batch/WordCount.jar --input /root/words.txt --output
Savepoint VS Checkpoint Savepoint演示 # 启动yarn session /export/server/flink/bin/yarn-session.sh -n 2 -tm 800 -s 1 -d # 运行job-会自动执行Checkpoint /export/server/flink/bin/flink run --class cn.itcast.checkpoint.CheckpointDemo01 /root/ckp.jar # 手动创建savepoint--相当于手动做了一次Checkpoint /export/server/flink/bin/flink savepoint 702b872ef80f08854c946a544f2ee1a5 hdfs://node1:8020/flink-checkpoint/savepoint/ # 停止job /export/server/flink/bin/flink cancel 702b872ef80f08854c946a544f2ee1a5 # 重新启动job,手动加载savepoint数据 /export/server/flink/bin/flink run -s hdfs://node1:8020/flink-checkpoint
分别是LocalStreamEnvironment, StreamPlanEnvironment, StreamContextEnvironment, RemoteStreamEnvironment和LegacyLocalStreamEnvironment这里不做一一介绍
参数总结 [root@node1 bin]# /export/server/flink/bin/flink --help . /flink <ACTION> [OPTIONS] [ARGUMENTS] The following actions are available: Action "run" compiles The available options can be found at https://ci.apache.org/projects/flink /flink- docs-stable/ops/config.html -m,--jobmanager <arg> -j,--jarfile <jarfile> Flink program JAR file.
---- Flink实现订单自动好评 需求 在电商领域会有这么一个场景,如果用户买了商品,在订单完成之后,一定时间之内没有做出评价,系统自动给与五星好评,我们今天主要使用Flink的定时器来简单实现这一功能 数据 自定义source模拟生成一些订单数据. , value.f1); ctx.timerService().registerProcessingTimeTimer(value.f1 + interval); 3.4定时器被触发时执行并输出结果 4. orderDS.keyBy(t -> t.f0) .process(new TimerProcessFunction(interval)); //TODO 4. orderDS.keyBy(t->t.f0) .process(new MyKeyedProcessFunction(interval)); //TODO 4.
Broadcast State 是 Flink 1.5 引入的新特性。 下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中 。 ()方法处理后输出结果数据记录的类型。 org.apache.flink.api.java.tuple.Tuple4; import org.apache.flink.api.java.tuple.Tuple6; import org.apache.flink.configuration.Configuration -数据源源不断产生,量会很大 //<userID, eventTime, eventType, productID> DataStreamSource<Tuple4<String ; import org.apache.flink.api.java.tuple.Tuple2; import org.apache.flink.api.java.tuple.Tuple4; import
目前来说,大数据领域最为活跃的三个计算框架,当属Hadoop、Spark以及Flink这三者。三个框架在不同的大数据处理场景当中,表现各有优势,因此也常常被拿来做比较。 今天我们也来做个Hadoop对比,看看Hadoop、Spark、Flink三大框架,各自的优势劣势如何。 4、计算模型对比 Hadoop:MapReduce采用了面向批处理的模型,批处理静态数据。 Spark:Spark采用了微批处理。微批处理本质上是一种“先收集再处理”的计算模型。 Flink:Flink采用连续流式流传输模型,实时对数据进行处理,而不会在收集数据或处理数据时出现任何延迟。 作为主流的三大处理框架,这三者在大数据领域都有着自己的优势和劣势,因此最好的方案就是将各自的优势结合起来,实现更高效率地完成大数据处理任务。
,这个数据在每个节点上只会存在一份。 Accumulator即累加器,与Mapreduce counter的应用场景差不多,都能很好地观察task在运行期间的数据变化,可以在Flink job任务中的算子函数中操作累加器,但是只能在任务执行结束之后才能获得累加器的最终结果 getRuntimeContext().addAccumulator(“num-lines”, this.numLines); 3:使用累加器 this.numLines.add(1); 4: Flink提供了一个分布式缓存,类似于hadoop,可以使用户在并行函数中很方便的读取本地文件,此缓存的工作机制如下:程序注册一个文件或者目录(本地或者远程文件系统,例如hdfs或者s3),通过ExecutionEnvironment 当程序执行,Flink自动将文件或者目录复制到所有taskmanager节点的本地文件系统,用户可以通过这个指定的名称查找文件或者目录,然后从taskmanager节点的本地文件系统访问它。
流计算 Oceanus 简介 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点的企业级实时大数据分析平台 通过MySQL集成数据到 Oceanus (Flink) 集群,可以使用flink-connector-jdbc或者flink-connector-mysq-cdc。 使用MySQL-cdc特性时,flink-connector-mysq-cdc 连接器需要设置 MySQL 数据库的参数 binlog_row_image=FULL。 2. 进入 Oceanus 控制台[3],点击左侧【集群管理】,点击左上方【创建集群】,具体可参考 Oceanus 官方文档创建独享集群[4]。 创建 Sink -- Elasticsearch 只能作为数据目的表(Sink)写入 -- 参见 https://ci.apache.org/projects/flink/flink-docs-release