搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏扎心了老铁
java spark-streaming接收TCPKafka数据
本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤； 2、如何使用spark-streaming接入TCP数据并进行wordcount；内容如下： 1、使用maven，先解决
1.2K40发布于 2018-03-05
来自专栏挖掘大数据
整合Kafka到spark-streaming实例
场景模拟我试图覆盖工程上最为常用的一个场景： 1）首先，向Kafka里实时的写入订单数据，JSON格式，包含订单ID-订单类型-订单收益 2）然后，spark-streaming每十秒实时去消费kafka 中的订单数据，并以订单类型分组统计收益 3）最后，spark-streaming统计结果实时的存入本地MySQL。 1）先解决依赖其中比较核心的是spark-streaming和kafka集成包spark-streaming-kafka_2.10，还有spark引擎spark-core_2.10 json和mysql 而spark-streaming的操作对象是RDD的时间序列DStream，这个序列的生成是跟batch的选取有关。例如我这里Batch是10s一个，那么每隔10s会产出一个RDD，对RDD的切割和序列的生成，spark-streaming对我们透明了。
5.4K100发布于 2018-01-09
来自专栏stream process
spark-streaming的checkpoint机制源码分析
转发请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/7994357.html spark-streaming定时对 DStreamGraph 和 ssc.scheduler.getPendingTimes().toArray val sparkConfPairs = ssc.conf.getAll 二从checkpoint恢复服务 spark-streaming
96630发布于 2020-03-04
来自专栏每天学Java
Spark-Streaming实时数据读取(kafka)
上一篇文章我们使用Spark对MySQL进行读写，实际上Spark在工作中更多的是充当实时流计算框架引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0-preview</version>
1.5K30发布于 2020-06-01
来自专栏扎心了老铁
spark-streaming集成Kafka处理实时数据
场景模拟我试图覆盖工程上最为常用的一个场景： 1）首先，向Kafka里实时的写入订单数据，JSON格式，包含订单ID-订单类型-订单收益 2）然后，spark-streaming每十秒实时去消费kafka 中的订单数据，并以订单类型分组统计收益 3）最后，spark-streaming统计结果实时的存入本地MySQL。 1）先解决依赖其中比较核心的是spark-streaming和kafka集成包spark-streaming-kafka_2.10，还有spark引擎spark-core_2.10 json和mysql 而spark-streaming的操作对象是RDD的时间序列DStream，这个序列的生成是跟batch的选取有关。例如我这里Batch是10s一个，那么每隔10s会产出一个RDD，对RDD的切割和序列的生成，spark-streaming对我们透明了。
2.7K50发布于 2018-03-05
来自专栏大数据成神之路
基于SparkStreaming+Kafka+HBase实时点击流案例
Kafka机制（Receiver-based Approach 和 Direct Approach），具体细节请参考文章最后官方文档链接，数据存储使用HBase 实现思路实现Kafka消息生产者模拟器 Spark-Streaming 采用Direct Approach方式实时获取Kafka中数据 Spark-Streaming对数据进行业务计算后数据存储到HBase 本地虚拟机集群环境配置由于笔者机器性能有限，hadoop/zookeeper /kafka集群都搭建在一起主机名分别为hadoop1,hadoop2,hadoop3; hbase为单节点在hadoop1 缺点及不足代码设计上有些许缺陷，比如spark-streaming计算后数据保存官方文档 http://spark.apache.org/docs/latest/streaming-programming-guide.html spark-streaming整合kafka官方文档 http://spark.apache.org/docs/latest/streaming-kafka-integration.html spark-streaming整合flume官方文档 http:
1.5K20发布于 2020-01-14
来自专栏机器学习与系统
sbt编译Spark App的依赖问题
1.6.0" % "provided", "org.apache.spark" %% "spark-sql" % "1.6.0" % "provided", "org.apache.spark" %% "spark-streaming 2.0.0" % "provided", "org.apache.spark" %% "spark-sql" % "2.0.0" % "provided", "org.apache.spark" %% "spark-streaming
2.3K10发布于 2020-06-17
来自专栏携程技术
干货 | 百万QPS，秒级延迟，携程基于实时流的大数据基础层建设
3）spark-streaming 负责将binlog写入HDFS。 4）merge 离线调度的ETL作业，负责将HDFS增量和 snap 合并成新的 snap。 schemaName：库名，在后续的spark-streaming，mirror 处理时，可以根据分库的规则，只提取出前缀，比如(ordercenter_001 → ordercenter) 以屏蔽分库问题 tableName：表名，在后续的spark-streaming，mirror 处理时，可以根据分表规则，只提取出前缀，比如(orderinfo_001 → orderinfo ) 以屏蔽分表问题。 3.4 生成镜像 3.4.1 数据就绪检查 spark-streaming作业每5分钟一个批次将kafka simple_binlog消息持久化到HDFS，merge任务是每天执行一次。我们对消息的全链路进行了监控，包括binlog采集延迟 t1 、kafka同步延迟 t2 、spark-streaming consumer 延迟 t3。
2.1K10发布于 2021-04-09
来自专栏IfDataBig
Spark Streaming 基本操作
StreamingContext(sparkConf, Seconds(5)) /*必须要设置检查点*/ ssc.checkpoint("hdfs://hadoop001:8020/spark-streaming INFO CheckpointWriter: Saving checkpoint for time 1558945265000 ms to file 'hdfs://hadoop001:8020/spark-streaming 1558945265000' # 删除已经无用的检查点信息 19/05/27 16:21:30 INFO CheckpointWriter: Deleting hdfs://hadoop001:8020/spark-streaming
1K10编辑于 2022-07-27
来自专栏PPV课数据科学社区
关键七步，用Apache Spark构建实时分析Dashboard
数据集位于项目的spark-streaming/data/order_data文件夹中。推送数据集到Kafka shell脚本将从这些CSV文件中分别获取每一行并推送到Kafka。这是一个基本示例，演示如何集成Spark-streaming，Kafka，node.js和socket.io来构建实时分析Dashboard。
2.5K110发布于 2018-04-23
来自专栏加米谷大数据
大数据技术学习路线
Stage划分 5、Spark-Sql应用 Spark-SQL Spark结合Hive DataFrame 实战：Spark-SQL和DataFrame案例 6、SparkStreaming应用实战 Spark-Streaming 简介 Spark-Streaming编程实战：StageFulWordCount Flume结合Spark Streaming Kafka结合Spark Streaming 窗口函数 ELK技术栈介绍
1.5K20发布于 2018-07-25
来自专栏JAVA高级架构
携程大数据实时计算平台建设实践
首先是技术选型五花八门，消息队列有用ActiveMQ的，有用RabbitMQ的，也有用Kafka的，分析平台有用Storm的，有用Spark-streaming的，也有自己写程序处理的；由于业务部门技术力量参差不齐
2K20发布于 2018-09-29
来自专栏IfDataBig
Spark Streaming 整合 Flume
channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 2.2 项目依赖项目采用 Maven 工程进行构建，主要依赖为 spark-streaming 需要注意的是 spark-streaming 包在 Spark 安装目录的 jars 目录中已经提供，所以不需要打入。
65720编辑于 2022-07-27
来自专栏大数据技术学习
2019精炼的大数据技术学习路线
RDD的Stage划分 Spark-Sql应用 Spark-SQL Spark结合Hive DataFrame 实战：Spark-SQL和DataFrame案例 SparkStreaming应用实战 Spark-Streaming 简介 Spark-Streaming编程实战：StageFulWordCount Flume结合Spark Streaming Kafka结合Spark Streaming 窗口函数 ELK技术栈介绍
1.9K30发布于 2019-04-02
来自专栏rainbowzhou的成长足迹
用户画像平台架构图&构成？
Redis--非关系数据库，缓存 Elasticsearch--查询引擎支持海量数据的实时查询分析，用于存储用户人群计算、用户群透视分析所需的标签数据 Airflow--实时工作流处理，调度工具 Spark-streaming
1.6K30编辑于 2023-03-16
来自专栏祝威廉
Spark Streaming Dynamic Resource Allocation 文档(非官方特性)
否则你会看到自己的设置并不生效，因为运行的时候用了你的App里的spark-core,spark-streaming jar包了。
1.1K30发布于 2018-08-27
来自专栏stream process
spark-streaming-kafka-0-10源码分析
转发请注明原创地址http://www.cnblogs.com/dongxiao-yang/p/7767621.html 本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端，由于老的0.8
97010发布于 2020-03-05
来自专栏IT大咖说
Hadoop集群从180到1500，携程大数据实践之路
实时方面我们现在支持Jstorm和Spark-streaming，整个集群规模100以上。平台架构 ? 上图为我们的平台架构。另外还要考虑是否需要实时分析数据，目前这方面都是用的Spark-Streaming或者Flink。
1.1K30发布于 2018-10-23
使用Apache Spark处理Excel文件的简易指南
spark-sql" % sparkVersion, "org.apache.spark" %% "spark-mllib" % sparkVersion, "org.apache.spark" %% "spark-streaming
2.1K10编辑于 2024-01-19
来自专栏携程技术
干货 | 携程实时大数据平台实践分享
其实在这个统一的实时平台之前，各个部门自己也做一些实时数据分析的应用，但是其中存在很多的问题：首先是技术选型五花八门，消息队列有用ActiveMQ的，有用RabbitMQ的，也有用Kafka的，分析平台有用Storm的，有用Spark-streaming 消息队列这边Kafka已经成为了一个既定的事实标准；但是在实时处理平台的选择上还是有蛮多候选的系统，如Linkedin的Samza， apache的S4，最主流的当然是Storm和Spark-streaming 如果现在让我重新再来看的话，我觉得Spark-streaming和Storm都是可以的，因为这两个平台现在都已经比较成熟了。 ?
2.9K60发布于 2018-03-16

第 2 页第 3 页

点击加载更多

java spark-streaming接收TCPKafka数据

整合Kafka到spark-streaming实例

spark-streaming的checkpoint机制源码分析

Spark-Streaming实时数据读取(kafka)

spark-streaming集成Kafka处理实时数据

基于SparkStreaming+Kafka+HBase实时点击流案例

sbt编译Spark App的依赖问题

干货 | 百万QPS，秒级延迟，携程基于实时流的大数据基础层建设

Spark Streaming 基本操作

关键七步，用Apache Spark构建实时分析Dashboard

大数据技术学习路线

携程大数据实时计算平台建设实践

Spark Streaming 整合 Flume

2019精炼的大数据技术学习路线

用户画像平台架构图&构成？

Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

spark-streaming-kafka-0-10源码分析

Hadoop集群从180到1500，携程大数据实践之路

使用Apache Spark处理Excel文件的简易指南

干货 | 携程实时大数据平台实践分享

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐