首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Lansonli技术博客

    2021年数据Flink(十七):Flink基石

    ---- Flink基石 Flink之所以能这么流行,离不开它最重要的四个基石:Checkpoint、State、Time、Window。 Checkpoint 这是Flink最重要的一个特性。 Flink基于Chandy-Lamport算法实现了一个分布式的一致性的快照,从而提供了一致性的语义。 Chandy-Lamport算法实际上在1985年的时候已经被提出来,但并没有被很广泛的应用,而Flink则把这个算法发扬光大了。 Time 除此之外,Flink还实现了Watermark的机制,能够支持基于事件的时间的处理,能够容忍迟到/乱序的数据。 Window 另外流计算中一般在对流数据进行操作之前都会先进行开窗,即基于一个什么样的窗口上做这个计算。Flink提供了开箱即用的各种窗口,比如滑动窗口、滚动窗口、会话窗口以及非常灵活的自定义的窗口。

    1.2K30发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(八):Flink入门案例

    ,DataSetAPI已经不推荐使用了,后续其他案例都会优先使用DataStream流式API,既支持无界数据处理/流处理,也支持有界数据处理/批处理!  * 编码步骤  * 1.准备环境-env  * 2.准备数据-source  * 3.处理数据-transformation  * 4.输出结果-sink  * 5.触发执行-execute//如果有 ; /**  * Author lanson  * Desc  * 需求:使用Flink完成WordCount-DataStream  * 编码步骤  * 1.准备环境-env  * 2.准备数据-source 表达式  * 编码步骤  * 1.准备环境-env  * 2.准备数据-source  * 3.处理数据-transformation  * 4.输出结果-sink  * 5.触发执行-execute 需求:使用Flink完成WordCount-DataStream--使用lambda表达式--修改代码使适合在Yarn上运行  * 编码步骤  * 1.准备环境-env  * 2.准备数据-source

    1.5K40发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(九):Flink原理初探

    、SubTask、Parallelism 1.Dataflow:Flink程序在执行的时候会被映射成一个数据流模型 2.Operator:数据流模型中的每一个操作被称作Operator,Operator .One to One模式: 两个operator用此模式传递的时候,会保持数据的分区数和数据的排序;如上图中的Source1到Map1,它就保留的Source的分区特性,以及分区元素处理的有序性。 Flink执行图(ExecutionGraph) 由Flink程序直接映射成的数据流图是StreamGraph,也被称为逻辑流图,因为它们表示的是计算逻辑的高级视图。 为了执行一个流处理程序,Flink需要将逻辑流图转换为物理数据流图(也叫执行图),详细说明程序的执行方式。 原理介绍 Flink执行executor会自动根据程序代码生成DAG数据流图 Flink 中的执行图可以分成四层:StreamGraph -> JobGraph -> ExecutionGraph ->

    1.5K40发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(十八):Flink Window操作

    ---- Flink-Window操作 为什么需要Window 在流处理应用中,数据是连续不断的,有时我们需要做一些聚合类的处理,例如:在过去的1分钟内有多少用户点击了我们的网页。 在这种情况下,我们必须定义一个窗口(window),用来收集最近1分钟内的数据,并对这个窗口内的数据进行计算。 window 中, Flink提供了很多各种场景用的WindowAssigner: 如果需要自己定制数据分发策略,则可以实现一个 class,继承自 WindowAssigner。 ​​​​​​​ evictor--了解 evictor 主要用于做一些数据的自定义操作,可以在执行用户代码之前,也可以在执行 用户代码之后,更详细的描述可以参考org.apache.flink.streaming.api.windowing.evictors.Evictor Flink 提供了如下三种通用的 evictor: * CountEvictor 保留指定数量的元素 * TimeEvictor 设定一个阈值 interval,删除所有不再 max_ts - interval

    1.1K10发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(六):Flink On Yarn模式

    ---- Flink On Yarn模式 原理 为什么使用Flink On Yarn? 在实际开发中,使用Flink时,更多的使用方式是Flink On Yarn模式,原因如下: -1.Yarn的资源可以按需使用,提高集群的资源利用率 -2.Yarn的任务有优先级,根据优先级运行作业 -3 此外,AppMaster容器也提供了Flink的web服务接口。 run(提交任务) 1.在yarn上启动一个Flink会话,node1上执行以下命令 /export/server/flink/bin/yarn-session.sh -n 2 -tm 800 -s  run提交任务: /flink/bin/flink run  /export/server/flink/examples/batch/WordCount.jar run  /export/server

    1.8K20发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(四十):​​​​​​​Flink模拟双十一实时屏统计

    目录 Flink模拟双十一实时屏统计 需求 数据 编码步骤: 1.env 2.source 3.transformation 4.使用上面聚合的结果,实现业务需求: 5.execute 参考代码 实现代码 (基于上面参考代码重新写一套) 实现效果 ---- Flink模拟双十一实时屏统计 需求 在大数据的实时处理中,实时的屏展示已经成了一个很重要的展示项,比如最有名的双十一大屏实时销售总价展示。 今天我们就做一个最简单的模拟电商统计屏的小例子, 需求如下: 1.实时计算出当天零点截止到当前时间的销售总额 2.计算出各个分类的销售top3 3.每秒钟更新一次统计结果 数据 首先我们通过自定义source 模拟订单的生成,生成了一个Tuple2,第一个元素是分类,第二个元素表示这个分类下产生的订单金额,金额我们通过随机生成. /**  * 自定义数据源实时产生订单数据Tuple2<分类, 金额>  */ Exception { Double totalAmount = 0d;//用来记录销售总额 //用大小顶堆来计算TopN //用大顶堆(数据在堆顶

    1.5K31发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(二):Flink用武之地

    ---- Flink用武之地 http://www.liaojiayi.com/flink-IoT/ https://flink.apache.org/zh/usecases.html 从很多公司的应用案例发现 ,其实Flink主要用在如下三场景: ​​​​​​​Event-driven Applications【事件驱动】 事件驱动型应用是一类具有状态的应用,它从一个或多个事件流提取数据,并根据到来的事件触发计算 比如Flink应用凌晨从Recorded Events中读取昨天的数据,然后做周期查询运算,最后将数据写入Database或者HDFS,或者直接将数据生成报表供公司上层领导决策使用。 Periodic ETL:比如每天凌晨周期性的启动一个Flink ETL Job,读取传统数据库中的数据,然后做ETL,最后写入数据库和文件系统。 Data Pipeline:比如启动一个Flink 实时应用,数据源(比如数据库、Kafka)中的数据不断的通过Flink Data Pipeline流入或者追加到数据仓库(数据库或者文件系统),或者Kafka

    94150发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(二十五):Flink 状态管理

    为什么 Flink 知道之前已经处理过一次 hello world,这就是 state 发挥作用了,这里是被称为 keyed state 存储了之前需要统计的数据,所以 Flink 知道 hello 和 消费快的已经消费了 13 条数据,消费者慢的才消费了 7、8 条数据。 如何实时统计每个消费者落后多少条数据,如图给出了输入输出的示例。 刚才也提到了生产者写入了 15 条,消费者分别读取了 10、7、12 条。那么问题来了,怎么将生产者、消费者的进度转换为右侧示意图信息呢? ,Managed State 由 Flink Runtime 管理,自动存储,自动恢复,在内存管理上有优化;而 Raw State 需要用户自己管理,需要自己序列化,Flink 不知道 State 中存入的数据是什么结构 Operator State 可以用于所有算子,但一般常用于 Source 存储State的数据结构/API介绍 前面说过有状态计算其实就是需要考虑历史数据 而历史数据需要搞个地方存储起来 Flink为了方便不同分类的

    91430发布于 2021-10-09
  • 来自专栏Lansonli技术博客

    2021年数据Flink(一):乘风破浪的Flink-Flink概述

    早期, Flink 是做 Batch 计算的,但是在 2014 年, StratoSphere 里面的核心成员孵化出 Flink,同年将 Flink 捐赠 Apache,并在后来成为 Apache 的顶级大数据项目 ,同时 Flink 计算的主流方向被定位为 Streaming, 即用流式计算来做所有大数据的计算,这就是 Flink 技术诞生的背景。 2014 年 Flink 作为主攻流计算的大数据引擎开始在开源大数据行业内崭露头角。 这样在各种不同的场景下,不管是全量数据还是增量数据,亦或者实时处理,一套方案即可全部支持,这就是阿里选择 Flink 的背景和初衷。 2015 年阿里巴巴开始使用 Flink 并持续贡献社区(阿里内部还基于Flink做了一套Blink),2019年1月8日,阿里巴巴以 9000 万欧元(7亿元人民币)收购了创业公司 Data Artisans

    1.8K30发布于 2021-10-11
  • 来自专栏大数据进阶

    flink系列(7)-streamGraph

    StreamGraph是flink四层执行图中的第一层图,代码在org.apache.flink.streaming.api.graph包中,第一层graph主要做的事情是将所有的stransformation 可以看到DataStreamSource是DataStream的子类 DataStreamSource是DataStream的数据流抽象,StreamSource是StreamOperator的抽象,在 flink 中一个 DataStream 封装了一次数据流转换,一个 StreamOperator 封装了一个函数接口,比如 map、reduce、keyBy等。 * {@link RichMapFunction} to gain access to other features provided by the * {@link org.apache.flink.api.common.functions.RichFunction

    1K20发布于 2019-09-17
  • 来自专栏Lansonli技术博客

    2021年数据Flink(三十):Flink ​​​​​​​Table API & SQL 介绍

    /dev/table/ Flink的Table模块包括 Table API 和 SQL: Table API 是一种类SQL的API,通过Table API,用户可以像操作表一样操作数据,非常直观和方便 SQL作为一种声明式语言,有着标准的语法和规范,用户可以不用关心底层实现即可进行数据的处理,非常易于上手 Flink Table API 和 SQL 的实现上有80%左右的代码是公用的。 标准稳定:语义遵循SQL标准,非常稳定,在数据库 30 多年的历史中,SQL 本身变化较少; 5. 在 Flink 1.9 中,Table 模块迎来了核心架构的升级,引入了阿里巴巴Blink团队贡献的诸多功能 在Flink 1.9 之前,Flink API 层 一直分为DataStream API 了解-Blink planner和Flink Planner具体区别如下: https://ci.apache.org/projects/flink/flink-docs-release-1.12/dev

    94920发布于 2021-10-09
  • 来自专栏Lansonli技术博客

    2021年数据Flink(二十七):Flink 容错机制 Checkpoint

    Java的堆内存中/TaskManage节点的内存中 State可以被记录,在失败的情况下数据还可以恢复 Checkpoint: 某一时刻,Flink中所有的Operator的当前State的全局快照, 一般存在磁盘上 表示了一个Flink Job在一个特定时刻的一份全局状态快照,即包含了所有Operator的状态 可以理解为Checkpoint是把State数据定时持久化存储了 比如KafkaConsumer 算子中维护的Offset状态,当任务重新恢复的时候可以从Checkpoint中获取 注意: Flink中的Checkpoint底层使用了Chandy-Lamport algorithm分布式快照算法可以保证数据的在分布式环境下的一致性 (为了提高效率) 2.分布式快照执行时的数据一致性由Chandy-Lamport algorithm分布式快照算法保证! 因为如果某个算子在节点A上失败,在节点B上恢复,使用本地文件时,在B上无法读取节点 A上的数据,导致状态恢复失败。

    1.3K30发布于 2021-10-09
  • 来自专栏Lansonli技术博客

    2021年数据Flink(三):​​​​​​​Flink安装部署 Local本地模式

    ---- Flink安装部署 Flink支持多种安装模式 - Local—本地单机模式,学习测试时使用 - Standalone—独立集群模式,Flink自带集群,开发测试环境使用 - StandaloneHA —独立集群高可用模式,Flink自带集群,开发测试环境使用 - On Yarn—计算资源统一由Hadoop YARN管理,生产环境使用 Local本地模式 原理 Flink程序由JobClient进行提交 作业执行完成后,结果将发送回客户端(JobClient) 操作 1.下载安装包 https://archive.apache.org/dist/flink/ 2.上传flink-1.12.0-bin-scala root /export/server/flink-1.12.0 5.改名或创建软链接 mv flink-1.12.0 flink ln -s /export/server/flink-1.12.0  /flink/bin/flink run /export/server/flink/examples/batch/WordCount.jar --input /root/words.txt --output

    1.1K20发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(二十九):Flink 容错机制 Savepoint

    Savepoint VS Checkpoint ​​​​​​​Savepoint演示 # 启动yarn session /export/server/flink/bin/yarn-session.sh -n 2 -tm 800 -s 1 -d # 运行job-会自动执行Checkpoint /export/server/flink/bin/flink run --class cn.itcast.checkpoint.CheckpointDemo01 /root/ckp.jar # 手动创建savepoint--相当于手动做了一次Checkpoint /export/server/flink/bin/flink savepoint 702b872ef80f08854c946a544f2ee1a5  hdfs://node1:8020/flink-checkpoint/savepoint/ # 停止job /export/server/flink/bin/flink cancel 702b872ef80f08854c946a544f2ee1a5 # 重新启动job,手动加载savepoint数据 /export/server/flink/bin/flink run -s hdfs://node1:8020/flink-checkpoint

    73320发布于 2021-10-09
  • 来自专栏小道

    Flink学习笔记(7) -- Flink 并行度详解(Parallel)

      Flink的每个TaskManager为集群提供slot。 slot的数量通常与每个TaskManager节点的可用CPU内核数成比例。一般情况下你的slot数是你每个节点的cpu的核数。    一个Flink程序由多个任务组成(source、transformation和 sink)。 一个任务由多个并行的实例(线程)来执行, 一个任务的并行实例(线程)数目就被称为该任务的并行度。 一个算子、数据源和sink的并行度可以通过调用 setParallelism()方法来指定   执行环境(任务)的默认并行度可以通过调用setParallelism()方法指定。    为了以并行度3来执行所有的算子、数据源和data sink, 可以通过如下的方式设置执行环境的并行度:   并行度可以在客户端将job提交到Flink时设定。    /bin/flink run -p 10 WordCount-java.jar   在系统级可以通过设置flink-conf.yaml文件中的parallelism.default属性来指定所有执行环境的默认并行度

    2.2K20发布于 2021-04-13
  • 来自专栏Lansonli技术博客

    2021年数据Flink(七):​​​​​​​参数总结

    参数总结 [root@node1 bin]# /export/server/flink/bin/flink --help . /flink <ACTION> [OPTIONS] [ARGUMENTS] The following actions are available: Action "run" compiles The available options can be found at                            https://ci.apache.org/projects/flink /flink-                                      docs-stable/ops/config.html      -m,--jobmanager <arg> -j,--jarfile <jarfile>   Flink program JAR file.   

    1K60发布于 2021-10-11
  • 来自专栏Lansonli技术博客

    2021年数据Flink(四十一):​​​​​​​Flink实现订单自动好评

    ---- Flink实现订单自动好评 需求 在电商领域会有这么一个场景,如果用户买了商品,在订单完成之后,一定时间之内没有做出评价,系统自动给与五星好评,我们今天主要使用Flink的定时器来简单实现这一功能 数据 自定义source模拟生成一些订单数据. ; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.configuration.Configuration; ; import org.apache.flink.api.java.tuple.Tuple3; import org.apache.flink.configuration.Configuration; ) * 我们今天主要使用Flink的定时器来简单实现这一功能。

    92430发布于 2021-10-11
  • 来自专栏腾讯云大数据

    Flink 实践教程-入门(7):消费 Kafka 数据写入 PG

    作者:腾讯云流计算 Oceanus 团队 流计算 Oceanus 简介 流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的具备一站开发、无缝连接、亚秒延时 、低廉成本、安全稳定等特点的企业级实时大数据分析平台。 使用脚本发送:   Java:参考 使用 SDK 收发消息 [7] Python:参考如下代码 #! 进入实例数据库,创建 oceanus7_test1 表。 $', -- 数据库密码 -- 数据目的 Sink 性能调优参数 'sink.buffer-flush.max-rows' = '5000', -- 可选参数, 表示每批数据的最大缓存条数

    1.5K30发布于 2021-11-15
  • 来自专栏大数据文摘

    2016数据发展7趋势

    因此,高级管理人员正在寻找其人力资源的确切数据,所以,2016年我们会看到人力资源分析将迈出一步。 人力资源分析虽然是人事部门新的业务领域,但为了更好地提高人力资源的投资回报率,该业务增长极为迅速。 对于那些的商业组织而言,大数据已经成为通用语言。在适应新趋势方面,政府是缓慢的,但是在2016年,我们会看到更多的国家、地区和地方政府会采用大数据技术来提高社会和公民的体验。 7.智能机器带来的雾分析(Fog Analytic s)起步 ? 雾计算正在迅速地获得大量动力。雾计算是指推进连接到物联网的终端设备和存储数据的云计算之间的存储、传输和计算。 原文链接:https://datafloq.com/read/7-big-data-trends-for-2016/1699? utm_source=Datafloq%20newsletter&utm_campaign=41776c079a-Datafloq_newsletter_12_7_2015&utm_medium=email

    1.2K60发布于 2018-05-22
  • 来自专栏Lansonli技术博客

    2021年数据Flink(四十二):​​​​​​​BroadcastState

    Broadcast State 是 Flink 1.5 引入的新特性。 下游的 task 接收这些配置、规则并保存为 BroadcastState, 将这些配置应用到另一个数据流的计算中 。 ()方法处理后输出结果数据记录的类型。 org.apache.flink.api.java.tuple.Tuple4; import org.apache.flink.api.java.tuple.Tuple6; import org.apache.flink.configuration.Configuration                 broadcastState.clear();                 //最后将最新的广播流数据放到state中(更新状态数据)                  Tuple2<String, Integer>>> broadcastState = ctx.getBroadcastState(descriptor); //清理广播数据后再重新广播新数据

    1K30发布于 2021-10-11
领券