首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-State

    摘要:实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Apache Flink系统都会触发计算。如果我们想进行一个Count聚合计算,那么每次触发计算是将历史上所有流入的数据重新新计算一次,还是每次计算都是在上一次计算结果之上进行增量计算呢?答案是肯定的,Apache Flink是基于上一次的计算结果进行增量计算的。

    80531发布于 2019-04-24
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-SQL概览

    [5万人关注的大数据成神之路,不来了解一下吗?](https://dwz.cn/IKDVkWjX)

    1.2K40发布于 2019-04-08
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-TableAPI

    SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示:

    1.4K41发布于 2019-03-26
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-概述

    Apache Flink 的命脉 "命脉" 即生命与血脉,常喻极为重要的事物。系列的首篇,首篇的首段不聊Apache Flink的历史,不聊Apache Flink的架构,不聊Apache Flink的功能特性,我们用一句话聊聊什么是 Apache Flink 的命脉?我的答案是:Apache Flink 是以"批是流的特例"的认知进行系统设计的。

    1.5K30发布于 2019-03-12
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-TableAPI

    在《SQL概览》中我们概要的向大家介绍了什么是好SQL,SQL和Table API是Apache Flink中的同一层次的API抽象,如下图所示

    86120发布于 2019-04-24
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-State

    转载自:https://dwz.cn/xrMCqbk5 摘要: 实际问题 在流计算场景中,数据会源源不断的流入Apache Flink系统,每条数据进入Ap

    1.6K50发布于 2019-03-15
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN 算子

    在《Apache Flink 漫谈系列 - SQL概览》中我对JOIN算子有过简单的介绍,这里我们以具体实例的方式让大家对JOIN算子加深印象。JOIN的本质是分别从N(N>=1)张表中获取不同的字段,进而得到最完整的记录行。比如我们有一个查询需求:在学生表(学号,姓名,性别),课程表(课程号,课程名,学分)和成绩表(学号,课程号,分数)中查询所有学生的姓名,课程名和考试分数。如下:

    6.2K31发布于 2019-03-26
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-SQL概览

    SQL是Structured Query Language的缩写,最初是由美国计算机科学家Donald D. Chamberlin和Raymond F. Boyce在20世纪70年代早期从 Early History of SQL 中了解关系模型后在IBM开发的。该版本最初称为[SEQUEL: A Structured English Query Language](结构化英语查询语言),旨在操纵和检索存储在IBM原始准关系数据库管理系统System R中的数据。SEQUEL后来改为SQL,因为“SEQUEL”是英国Hawker Siddeley飞机公司的商标。我们看看这款用于特技飞行的英国皇家空军豪客Siddeley Hawk T.1A (Looks great):

    92710发布于 2019-03-26
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN 算子

    在《SQL概览》中我们介绍了JOIN算子的语义和基本的使用方式,介绍过程中大家发现Apache Flink在语法语义上是遵循ANSI-SQL标准的,那么再深思一下传统数据库为啥需要有JOIN算子呢?在实现原理上面Apache Flink内部实现和传统数据库有什么区别呢?本篇将详尽的为大家介绍传统数据库为什么需要JOIN算子,以及JOIN算子在Apache Flink中的底层实现原理和在实际使用中的优化!

    2.1K30发布于 2019-04-24
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN-LATERAL

    上一篇《JOIN算子》我们对最常见的JOIN做了详尽的分析,本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示

    1.4K50发布于 2019-04-24
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN-LATERAL

    本篇介绍一个特殊的JOIN,那就是JOIN LATERAL。JOIN LATERAL为什么特殊呢,直观说因为JOIN的右边不是一个实际的物理表,而是一个VIEW或者Table-valued Funciton。如下图所示:

    6.2K20发布于 2019-03-26
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-Temporal-Table-JOIN

    在《JOIN LATERAL》中提到了Temporal Table JOIN,本篇就向大家详细介绍什么是Temporal Table JOIN。 在ANSI-SQL 2011 中提出了Temporal 的概念,Oracle,SQLServer,DB2等大的数据库厂商也先后实现了这个标准。Temporal Table记录了历史上任何时间点所有的数据改动,Temporal Table的工作流程如下:

    4.8K50发布于 2019-04-24
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-DataStream-Connectors之Kafka

    Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度,目前也得到了广泛的应用。

    1.5K70发布于 2019-03-19
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-DataStream-Connectors之Kafka

    Apache Kafka是一个分布式发布-订阅消息传递系统。 它最初由LinkedIn公司开发,LinkedIn于2010年贡献给了Apache基金会并成为顶级开源项目。Kafka用于构建实时数据管道和流式应用程序。它具有水平扩展性、容错性、极快的速度,目前也得到了广泛的应用。

    2.1K20发布于 2019-03-22
  • 来自专栏大数据仓库建设

    Mac 安装 ApacheFlink + Scala + SBT

    SBT flink: https://ci.apache.org/projects/flink/flink-docs-release-1.8/tutorials/local_setup.html 安装apache-flink 预告:apache-flink 的 tar 包大小是284M,网络不好的话,下载很慢的哦 直接 brew 安装-很慢,真的很慢 brew install apache-flink 控制台安装进度: $ brew fetch apache-flink ==> Downloading https://archive.apache.org/dist/flink/flink-1.8.1/flink-1.8.1 参考:https://docs.brew.sh/Tips-N'-Tricks brew fetch apache-flink 此时也会去下载 flink,但是我们这回不用等 flink 下载完成,直接停掉次命令 ) brew install apache-flink 输出: Updating Homebrew... ==> Downloading https://archive.apache.org/dist

    1.9K60发布于 2019-08-22
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN-LATERAL-Time Interval(Time-windowed)

    JOIN 算子是数据处理的核心算子,前面我们在《Apache Flink 漫谈系列(09) - JOIN 算子》介绍了UnBounded的双流JOIN,在《Apache Flink 漫谈系列(10) - JOIN LATERAL》介绍了单流与UDTF的JOIN操作,在《Apache Flink 漫谈系列(11) - Temporal Table JOIN》又介绍了单流与版本表的JOIN,本篇将介绍在UnBounded数据流上按时间维度进行数据划分进行JOIN操作 - Time Interval(Time-windowed)JOIN, 后面我们叫做Interval JOIN。

    97600发布于 2019-03-26
  • 来自专栏Flink

    从零开始快速构建自己的Flink应用

    本地安装 flink在 mac 上使用homebrew安装 flink:brew install apache-flink查看安装的位置:brew info apache-flink进入安装目录,启动 flink 集群:cd /usr/local/Cellar/apache-flink/1.18.0.

    54410编辑于 2024-02-19
  • 来自专栏大数据成神之路

    Apache-Flink深度解析-JOIN-LATERAL-Time Interval(Time-windowed)

    前面章节我们介绍了Flink中对各种JOIN的支持,那么想想下面的查询需求之前介绍的JOIN能否满足?需求描述如下:

    3.4K31发布于 2019-04-24
  • 来自专栏大数据从业者

    教育行业PyFlink整合FlinkML机器学习场景实践总结

    PyFlink dependency if [[ $1 = "" ]]; then # install the latest version of pyflink pip install apache-flink else # install the specified version of pyflink pip install "apache-flink==$1" fi # deactivate venv sh setup-pyflink-virtual-env.sh 1.17.1 脚本流程主要是先下载miniconda.sh构建Python虚拟环境venv、然后通过pip安装pyflink的依赖apache-flink

    38210编辑于 2024-10-25
  • 来自专栏站长的编程笔记

    【说站】python PyFlink是什么意思

    3、安装命令 pip install apache-Flink 以上就是python PyFlink的介绍,相信很多人对这种特殊的组合还是比较感兴趣的,看完会可以安装试试用法,希望对大家有所帮助。

    61240编辑于 2022-11-23
领券