搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏数据科学
股票实时流计算
df = pd.DataFrame(q1).T p.produce('test-quant',df.to_msgpack()) time.sleep(10) In [2] df.head()).map(lambda df:df[['now','open']]).sink(display) var element = $('#61901593-c697-4e0e-ad17-c8f2c3fae6ae '); {"model_id": "8629bab4ae2a42fe908a3fe8b82354c0", "version_major": 2, "version_minor": 0} 定义流算法 -4fc6-4bed-a0d8-b1c3d9addda1'); {"model_id": "90191a8811c34609a599fa1b8d6af22d", "version_major": 2, bootstrap.servers': 'localhost:9092','message.max.bytes': 5242880}) p.produce('test-quant',df.to_msgpack()) 流计算过程的可视化
2.9K40发布于 2018-12-20
来自专栏实时流式计算
什么是实时流式计算？
实时流式计算，也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么，到底什么是实时流式计算呢？谷歌大神Tyler Akidau在《the-world-beyond-batch-streaming-101》一文中提到过实时流式计算的三个特征： 1、无限数据 2、无界数据处理 3、低延迟无限数据指的是而这也正是实时流式计算的关键点： 1、正确性一旦正确性有了保证，可以匹敌批处理。 2、时间推导工具而一旦提供了时间推导的工具，变完全超过了批处理。 2、物联网比如对电力系统进行实时的数据检测，进行报警，实时的显示，或者根据历史数据进行实时的分析，预测。
3.1K40发布于 2019-08-20
来自专栏实时计算
什么是实时流式计算？
实时流式计算，也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么，到底什么是实时流式计算呢？谷歌大神Tyler Akidau在《the-world-beyond-batch-streaming-101》一文中提到过实时流式计算的三个特征： 1、无限数据 2、无界数据处理 3、低延迟无限数据指的是而这也正是实时流式计算的关键点： 1、正确性一旦正确性有了保证，可以匹敌批处理。 2、时间推导工具而一旦提供了时间推导的工具，变完全超过了批处理。 2、物联网比如对电力系统进行实时的数据检测，进行报警，实时的显示，或者根据历史数据进行实时的分析，预测。 ?
3.5K20发布于 2019-09-11
来自专栏Golang开发
实时流计算框架——Storm
514 files, 181.7MB, built in 4 minutes 50 seconds Storm结构与部署 (1)Nimbus集群的主节点，负责任务(task)的指派和分发、资源的分配 (2) &1 & #后台启动dev-zookeeper 方法1 nohup storm dev-zookeeper & #后台启动dev-zookeeper 方法2 启动主节点Nimbus, storm nimbus storm nimbus >/dev/null 2>&1 & #后台启动nimbus 方法1 nohup storm nimbus & #后台启动nimbus 方法2 启动从节点 & #后台启动supervisor 方法2 启动Storm UI storm ui storm ui >/dev/null 2>&1 & #后台启动ui 方法1 nohup storm ui & storm jar topologyDemo.jar com.baxiang.topologyTest topologyDemo 核心概念 Topologies 计算拓扑,由spout和bolt组成的
2.6K30发布于 2019-05-29
来自专栏bgmonkey
FlinkSQL实时计算Demo
Flink实时消费业务数据Demo Debezium监控MySQL用FlinkSQL实时消费 1、环境准备 ## 各组件版本 MySQL：5.7.21-log ## 开启binlog kafka_2.11 debezium-connector-mysql-1.3.1.Final-plugin.tar.gz 链接：https://pan.baidu.com/s/1AtR9buds1AvfRnJ4JU-v6g 提取码：lkm2 ## 所需jar包链接：https://pan.baidu.com/s/1HFLuMcEdQN48DJplCx_e8A 提取码：5ipk 2、环境部署前提：开启MySQL并启用binlog 启动 kafka-connect配置信息 connect-distribute.properties ## 修改如下内容 bootstrap.servers=master:9092,slave1:9092,slave2:
3.5K20发布于 2021-04-09
来自专栏实时流式计算
用Spark进行实时流计算
Structured Streaming是Spark2.0版本提出的新的实时流框架（2.0和2.1是实验版本，从Spark2.2开始为稳定版本) 从Spark-2.X版本后，Spark Streaming 2.、Structured Streaming 优势相对的，来看下Structured Streaming优势：简洁的模型。Structured Streaming 的模型很简洁，易于理解。支持spark2的dataframe处理。解决了Spark Streaming存在的代码升级，DAG图变化引起的任务失败，无法断点续传的问题。基于SparkSQL构建的可扩展和容错的流式数据处理引擎，使得实时流式数据计算可以和离线计算采用相同的处理方式（DataFrame&SQL）。可以使用与静态数据批处理计算相同的方式来表达流计算。 Structured Streaming将实时数据当做被连续追加的表。流上的每一条数据都类似于将一行新数据添加到表中。 ?
3.1K20发布于 2020-08-05
来自专栏互联网研发闲思录
spark实时计算性能优化
1、计算提供两种模式，一种是jar包本地计算、一种是JSF服务。 2、第一步是引入spark，因与netty、JDQ均有冲突，解决netty冲突后，隔离计算为单独服务。 3、第二步是召回集扩量，发现当召回集由200扩到500后性能下降过快到70ms，利用多线程多核计算，性能到6ms。已在预发 5、第四步召回集在扩量，如性能瓶颈是io，则使用jar包本地计算，但与JDQ冲突。需要将线上上报迁移到统一上报服务，服务已有待联调上线。需要调整接口服务与素材、特征以及计算服务，通过测试得到IO、线程计算结果合并、多核计算的平衡，需排期配合。第五步已基本和开源分布式搜索引擎计算方式类似，后续会持续调研新的优化方式，并引入到线上。
1.5K90发布于 2018-01-03
来自专栏一点博客
Strom-实时流计算框架
所谓实时流计算，就是近几年由于数据得到广泛应用之后，在数据持久性建模不满足现状的情况下，急需数据流的瞬时建模或者计算处理。这种实时计算的应用实例有金融服务、网络监控、电信数据管理、 Web 应用、生产制造、传感检测，等等。但是，这些数据以大量、快速、时变（可能是不可预知）的数据流持续到达，由此产生了一些基础性的新的研究问题——实时计算。实时计算的一个重要方向就是实时流计算。 Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+），虽然比不上专门的流式数据处理软件，也可以用于实时计算，另一方面相比基于Record的其它处理框架实时计算处理流程互联网上海量数据（一般为日志流）的实时计算过程可以划分为 3 个阶段: 数据的产生与收集阶段、传输与分析处理阶段、存储对对外提供服务阶段。 ?
2.1K20发布于 2019-07-24
来自专栏积累沉淀
Spark实时流计算Java案例
.*; import scala.Tuple2; /** * * @author 汤高 * */ public class SparkStream { public static void String, Integer> call(String s) { return new Tuple2<String, Integer>(s, 1); { return i1 + i2; } }); // Print the first ten elements 并且hdfs上也可以看到通过计算生成的实时文件第二个案例是，不是通过socketTextStream套接字，而是直接通过hdfs上的某个文件目录来作为输入数据源 package com.tg.spark.stream /** * * @author 汤高 * */ public class SparkStream2 { public static void main(String[] args)
3K60发布于 2018-01-11
来自专栏CSDN技术头条
实时可靠的开源分布式实时计算系统——Storm
在Hadoop生态圈中，针对大数据进行批量计算时，通常需要一个或者多个MapReduce作业来完成，但这种批量计算方式是满足不了对实时性要求高的场景。 Storm是一个开源分布式实时计算系统，它可以实时可靠地处理流数据。它是为分布式场景而生的，抽象了消息传递，会自动地在集群机器上并发地处理流式计算，让你专注于实时处理的业务逻辑。 Storm是分布式实时计算，强调实时性，常用于实时性要求较高的地方。一个拓扑就是一个复杂的多阶段的流计算。 ? 2) Tuple 元组是Storm提供的一个轻量级的数据格式，可以用来包装你需要实际处理的数据。元组是一次消息传递的基本单元。
2.6K60发布于 2018-02-06
来自专栏大数据实践
Flink实时计算指标对数方案
这就需要一套实时数据对数方案，本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍，说服老板或者让其他人相信自己的数据是准确的、无误的。二、实时数据统计方案上述流程图描述了一般的实时数据计算流程，接收日志或者MQ到kafka，用Flink进行处理和计算，将最终计算结果存储在redis中，最后查询出redis中的数据给大屏、看板等展示比如说：离线的同事说离线昨天的数据订单是1w，实时昨天的数据确实2w，存在这么大的误差，到底是实时计算出问题了，还是离线出问题了呢？ (2)用Flink实时宽表数据存储至HDFS，通过Hive进行查询但是有一些朋友可能会说，es对应的sql count、group by语法操作，非常复杂，况且也不是用来做线上服务，而只是用与对数，所以时效性也不需要完全考虑四、总结实时计算能提供给用户查看当前的实时统计数据，但是数据的准确性确实一个很大的问题，如何说服用户或者领导数据计算是没有问题的，就需要和其他的数据提供方进行比对了。
3.1K00发布于 2019-10-21
来自专栏大数据架构师成长之路
实时数据计算框架演进介绍
数据仓库的趋势：实时数据仓库以满足实时化&自动化决策需求；大数据&数据湖以支持大量&复杂数据类型（文本、图像、视频、音频）； image.png 2.数据仓库的发展数据仓库有两个环节：数据仓库的构建与数据仓库的应用 image.png 4.2 Lambda 架构随着大数据应用的发展，人们逐渐对系统的实时性提出了要求，为了计算一些实时指标，就在原来离线数仓的基础上增加了一个实时计算的链路，并对数据源做流式改造（即把数据发送到消息队列），实时计算去订阅消息队列，直接完成指标增量的计算，推送到下游的数据服务中去，由数据服务层完成离线&实时结果的合并。当新作业赶上进度后，应用切换数据源，读取 2 中产生的新结果表。停止老的作业，删除老的结果表。 5.1 整体设计整体设计如下图，基于业务系统的数据，数据模型采用中间层的设计理念，建设仓配实时数仓；计算引擎，选择更易用、性能表现更佳的实时计算作为主要的计算引擎；数据服务，选择天工数据服务中间件，避免直连数据库
2.4K70发布于 2020-08-04
来自专栏DataLink数据中台
Dlink 实时计算平台——部署篇
表单提交时可能需要较长时间的等待，因为那时 dlink 正在努力的计算当前活跃的 JobManager 地址。具体如下： CREATE TABLE Orders ( order_number BIGINT, price DECIMAL(32,2), buyer AGGTABLE： CREATE AGGTABLE aggdemo AS SELECT myField,value,rank FROM MyTable GROUP BY myField AGG BY TOP2( 后续将带来《Dlink 实时计算平台——功能篇》、《Dlink 实时计算平台——技巧篇》、《Dlink 实时计算平台——原理篇》，敬请期待。
3.4K20编辑于 2021-12-27
来自专栏小晨讲Flink
附代码｜Flink实时计算TopN
厨卫: 3956 2. 文具耗材: 3174 3. 摄影摄像: 2738 10> ---------------- 1. 厨卫: 3956 2. 影音娱乐: 4304 2. 风衣: 4286 3. 厨卫: 3956 12> ---------------- 1. 牛仔裤: 5261 2. 衬衫: 5155 3. 窗口操作根据需求，我们要计算过去60秒内的交易额，所以很容易想到：将时间窗口的时长设置为60秒，然后计算这段时间内每个品类的交易额的和，最后计算Top3就可以了。假设使用上一章的方法timeWindow(Time.seconds(60))，计算的结果是没有问题的，但是你会发现它是每60秒计算一次，无法满足需求每10秒更新一次榜单。我们不能忘记一件事：Flink是分布式处理引擎，所以计算是同时发生在各个节点的，当使用windowAll时，数据会汇集一个节点去执行我们指定的计算。
1.6K40编辑于 2022-03-10
来自专栏肉眼品世界
京东实时计算架构演进之路
而对于实时的数据需求也是层出不穷，实时计算架构随着数据量的增长，不断进行革新。在实时架构设计上就需要尽量用更少的成本来解决这种问题。基于mysql的实时数据统计方案就比较适合了。基于此产生了一套新的技术方案：flink接kafka消息数据，直接进行指标计算，写入到redis里面，最后提供最外提供服务。详细步骤见下图。架构优缺点： (1)能够支撑亿级数据量的统计需求，对于大数据量友好 (2)时效性高，计算延迟较低 (3)技术方案相对复杂，新增指标需要重新开发，上线任务。 ? 架构优缺点： (1)能够支撑亿级数据量的统计需求，对于大数据量友好 (2)时效性较高 (3)开发简单，能够快速应对业务需求。 ?
87820发布于 2021-07-13
来自专栏vivo互联网技术
vivo 实时计算平台建设实践
vivo 实时计算平台是 vivo 实时团队基于 Apache Flink 计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。近几年，大数据实时计算技术和公司的实时数据业务都在飞速发展，截止到今年8月，vivo实时计算每日处理数据量达到5PB，有效任务数超过4000，目前已接入98个项目，从趋势上来看，每年都有超过100%的规模增长实时计算作为平台的核心能力之一，它同时满足了大规模数据计算和高时效计算的需求，我们通过实时计算平台来承载和向业务提供这方面的能力。 vivo实时计算平台是基于Apache Flink计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。实时计算的应用场景有很多，但本质上来说它的目的跟离线计算是一样的，就是为业务提供数据支持。
1.4K30编辑于 2023-01-04
来自专栏share ai happiness
Flink SQL 实时计算UV指标
用一个接地气的案例来介绍如何实时计算 UV 数据。大家都知道，在 ToC 的互联网公司，UV 是一个很重要的指标，对于老板、商务、运营的及时决策会产生很大的影响，笔者在电商公司，目前主要的工作就是计算 UV、销售等各类实时数据，体验就特别深刻，因此就用一个简单 demo 演示如何用 Flink SQL 消费 Kafka 中的 PV 数据，实时计算出 UV 指标后写入 Hbase。 StreamExecutionEnvironment sEnv = StreamExecutionEnvironment.getExecutionEnvironment(); //step2 hBaseOptions, hBaseWriteOptions); tEnv.registerTableSink("uv_index", hBaseSink); //step6 实时计算当天
2.8K20发布于 2020-06-15
来自专栏性能与架构
快速认识实时计算系统 Storm
Storm是什么 Storm 是一个分布式数据流处理系统，用于大规模数据的实时处理。例如用户在购物网站中会产生很多行为记录，如浏览、搜索感兴趣的商品，就可以使用Storm对这些行为记录进行实时分析处理，快速反馈给相关系统，如推荐系统。 Storm 还有一个显著特点，就是编程简单，提供了简单的 Spout+Bolt 的编程模型，可以快速写出大规模数据的实时处理任务，而且有本地模式，开发人员可以方便的在本机运行调试，并支持多语言编程，如
1.5K110发布于 2018-04-04
来自专栏大数据成神之路
Flink实时计算指标对数方案
这就需要一套实时数据对数方案，本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍，说服老板或者让其他人相信自己的数据是准确的、无误的。上述流程图描述了一般的实时数据计算流程，接收日志或者MQ到kafka，用Flink进行处理和计算，将最终计算结果存储在redis中，最后查询出redis中的数据给大屏、看板等展示。比如说：离线的同事说离线昨天的数据订单是1w，实时昨天的数据确实2w，存在这么大的误差，到底是实时计算出问题了，还是离线出问题了呢？ (2)用Flink实时宽表数据存储至HDFS，通过Hive进行查询但是有一些朋友可能会说，es对应的sql count、group by语法操作，非常复杂，况且也不是用来做线上服务，而只是用与对数，所以时效性也不需要完全考虑四、总结实时计算能提供给用户查看当前的实时统计数据，但是数据的准确性确实一个很大的问题，如何说服用户或者领导数据计算是没有问题的，就需要和其他的数据提供方进行比对了。
1.5K20发布于 2019-10-28
来自专栏暴走大数据
Flink实时计算指标对数方案
这就需要一套实时数据对数方案，本文主要从背景、实时数据计算方案、对数方案、总结四方面来介绍，说服老板或者让其他人相信自己的数据是准确的、无误的。上述流程图描述了一般的实时数据计算流程，接收日志或者MQ到kafka，用Flink进行处理和计算，将最终计算结果存储在redis中，最后查询出redis中的数据给大屏、看板等展示。比如说：离线的同事说离线昨天的数据订单是1w，实时昨天的数据确实2w，存在这么大的误差，到底是实时计算出问题了，还是离线出问题了呢？ (2)用Flink实时宽表数据存储至HDFS，通过Hive进行查询但是有一些朋友可能会说，es对应的sql count、group by语法操作，非常复杂，况且也不是用来做线上服务，而只是用与对数，所以时效性也不需要完全考虑四、总结实时计算能提供给用户查看当前的实时统计数据，但是数据的准确性确实一个很大的问题，如何说服用户或者领导数据计算是没有问题的，就需要和其他的数据提供方进行比对了。
2K30发布于 2019-10-25

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

股票实时流计算

什么是实时流式计算？

什么是实时流式计算？

实时流计算框架——Storm

FlinkSQL实时计算Demo

用Spark进行实时流计算

spark实时计算性能优化

Strom-实时流计算框架

Spark实时流计算Java案例

实时可靠的开源分布式实时计算系统——Storm

Flink实时计算指标对数方案

实时数据计算框架演进介绍

Dlink 实时计算平台——部署篇

附代码｜Flink实时计算TopN

京东实时计算架构演进之路

vivo 实时计算平台建设实践

Flink SQL 实时计算UV指标

快速认识实时计算系统 Storm

Flink实时计算指标对数方案

Flink实时计算指标对数方案

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐