首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏扎心了老铁

    java spark-streaming接收TCPKafka数据

     本文将展示 1、如何使用spark-streaming接入TCP数据并进行过滤; 2、如何使用spark-streaming接入TCP数据并进行wordcount; 内容如下: 1、使用maven,先解决

    1.1K40发布于 2018-03-05
  • 来自专栏挖掘大数据

    整合Kafka到spark-streaming实例

    场景模拟 我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka 中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL。 1)先解决依赖 其中比较核心的是spark-streaming和kafka集成包spark-streaming-kafka_2.10,还有spark引擎spark-core_2.10 json和mysql 而spark-streaming的操作对象是RDD的时间序列DStream,这个序列的生成是跟batch的选取有关。 例如我这里Batch是10s一个,那么每隔10s会产出一个RDD,对RDD的切割和序列的生成,spark-streaming对我们透明了。

    5.3K100发布于 2018-01-09
  • 来自专栏每天学Java

    Spark-Streaming实时数据读取(kafka)

    上一篇文章我们使用Spark对MySQL进行读写,实际上Spark在工作中更多的是充当实时流计算框架 引入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming_2.12</artifactId> <version>3.0.0-preview</version>

    1.4K30发布于 2020-06-01
  • 来自专栏stream process

    spark-streaming的checkpoint机制源码分析

    转发请注明原创地址 http://www.cnblogs.com/dongxiao-yang/p/7994357.html spark-streaming定时对 DStreamGraph 和 ssc.scheduler.getPendingTimes().toArray val sparkConfPairs = ssc.conf.getAll 二 从checkpoint恢复服务 spark-streaming

    88930发布于 2020-03-04
  • 来自专栏扎心了老铁

    spark-streaming集成Kafka处理实时数据

    场景模拟 我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订单收益 2)然后,spark-streaming每十秒实时去消费kafka 中的订单数据,并以订单类型分组统计收益 3)最后,spark-streaming统计结果实时的存入本地MySQL。 1)先解决依赖 其中比较核心的是spark-streaming和kafka集成包spark-streaming-kafka_2.10,还有spark引擎spark-core_2.10 json和mysql 而spark-streaming的操作对象是RDD的时间序列DStream,这个序列的生成是跟batch的选取有关。 例如我这里Batch是10s一个,那么每隔10s会产出一个RDD,对RDD的切割和序列的生成,spark-streaming对我们透明了。

    2.6K50发布于 2018-03-05
  • 来自专栏大数据成神之路

    基于SparkStreaming+Kafka+HBase实时点击流案例

    Kafka机制(Receiver-based Approach 和 Direct Approach),具体细节请参考文章最后官方文档链接,数据存储使用HBase 实现思路 实现Kafka消息生产者模拟器 Spark-Streaming 采用Direct Approach方式实时获取Kafka中数据 Spark-Streaming对数据进行业务计算后数据存储到HBase 本地虚拟机集群环境配置 由于笔者机器性能有限,hadoop/zookeeper /kafka集群都搭建在一起主机名分别为hadoop1,hadoop2,hadoop3; hbase为单节点在hadoop1 缺点及不足 代码设计上有些许缺陷,比如spark-streaming计算后数据保存 官方文档 http://spark.apache.org/docs/latest/streaming-programming-guide.html spark-streaming整合kafka官方文档 http://spark.apache.org/docs/latest/streaming-kafka-integration.html spark-streaming整合flume官方文档 http:

    1.4K20发布于 2020-01-14
  • 来自专栏机器学习与系统

    sbt编译Spark App的依赖问题

    1.6.0" % "provided", "org.apache.spark" %% "spark-sql" % "1.6.0" % "provided", "org.apache.spark" %% "spark-streaming 2.0.0" % "provided", "org.apache.spark" %% "spark-sql" % "2.0.0" % "provided", "org.apache.spark" %% "spark-streaming

    2K10发布于 2020-06-17
  • 来自专栏携程技术

    干货 | 百万QPS,秒级延迟,携程基于实时流的大数据基础层建设

    3)spark-streaming 负责将binlog写入HDFS。 4)merge 离线调度的ETL作业,负责将HDFS增量和 snap 合并成新的 snap。 schemaName:库名,在后续的spark-streaming,mirror 处理时,可以根据分库的规则,只提取出前缀,比如(ordercenter_001 → ordercenter) 以屏蔽分库问题 tableName:表名,在后续的spark-streaming,mirror 处理时,可以根据分表规则,只提取出前缀,比如(orderinfo_001 → orderinfo ) 以屏蔽分表问题。 3.4 生成镜像 3.4.1 数据就绪检查 spark-streaming作业每5分钟一个批次将kafka simple_binlog消息持久化到HDFS,merge任务是每天执行一次。 我们对消息的全链路进行了监控,包括binlog采集延迟 t1 、kafka同步延迟 t2 、spark-streaming consumer 延迟 t3。

    2K10发布于 2021-04-09
  • 来自专栏IfDataBig

    Spark Streaming 基本操作

    StreamingContext(sparkConf, Seconds(5)) /*必须要设置检查点*/ ssc.checkpoint("hdfs://hadoop001:8020/spark-streaming INFO CheckpointWriter: Saving checkpoint for time 1558945265000 ms to file 'hdfs://hadoop001:8020/spark-streaming 1558945265000' # 删除已经无用的检查点信息 19/05/27 16:21:30 INFO CheckpointWriter: Deleting hdfs://hadoop001:8020/spark-streaming

    85910编辑于 2022-07-27
  • 来自专栏PPV课数据科学社区

    关键七步,用Apache Spark构建实时分析Dashboard

    数据集位于项目的spark-streaming/data/order_data文件夹中。 推送数据集到Kafka shell脚本将从这些CSV文件中分别获取每一行并推送到Kafka。 这是一个基本示例,演示如何集成Spark-streaming,Kafka,node.js和socket.io来构建实时分析Dashboard。

    2.2K110发布于 2018-04-23
  • 来自专栏加米谷大数据

    大数据技术学习路线

    Stage划分 5、Spark-Sql应用 Spark-SQL Spark结合Hive DataFrame 实战:Spark-SQL和DataFrame案例 6、SparkStreaming应用实战 Spark-Streaming 简介 Spark-Streaming编程 实战:StageFulWordCount Flume结合Spark Streaming Kafka结合Spark Streaming 窗口函数 ELK技术栈介绍

    1.4K20发布于 2018-07-25
  • 来自专栏JAVA高级架构

    携程大数据实时计算平台建设实践

    首先是技术选型五花八门,消息队列有用ActiveMQ的,有用RabbitMQ的,也有用Kafka的,分析平台有用Storm的,有用Spark-streaming的,也有自己写程序处理的;由于业务部门技术力量参差不齐

    1.9K20发布于 2018-09-29
  • 来自专栏IfDataBig

    Spark Streaming 整合 Flume

    channels.c1.capacity = 1000 a1.channels.c1.transactionCapacity = 100 2.2 项目依赖 项目采用 Maven 工程进行构建,主要依赖为 spark-streaming 需要注意的是 spark-streaming 包在 Spark 安装目录的 jars 目录中已经提供,所以不需要打入。

    52820编辑于 2022-07-27
  • 来自专栏大数据技术学习

    2019精炼的大数据技术学习路线

    RDD的Stage划分 Spark-Sql应用 Spark-SQL Spark结合Hive DataFrame 实战:Spark-SQL和DataFrame案例 SparkStreaming应用实战 Spark-Streaming 简介 Spark-Streaming编程 实战:StageFulWordCount Flume结合Spark Streaming Kafka结合Spark Streaming 窗口函数 ELK技术栈介绍

    1.8K30发布于 2019-04-02
  • 来自专栏rainbowzhou的成长足迹

    用户画像平台架构图&构成?

    Redis--非关系数据库,缓存 Elasticsearch--查询引擎 支持海量数据的实时查询分析,用于存储用户人群计算、用户群透视分析所需的标签数据 Airflow--实时工作流处理,调度工具 Spark-streaming

    1.4K30编辑于 2023-03-16
  • 来自专栏祝威廉

    Spark Streaming Dynamic Resource Allocation 文档(非官方特性)

    否则你会看到自己的设置并不生效,因为运行的时候用了你的App里的spark-core,spark-streaming jar包了。

    1K30发布于 2018-08-27
  • 来自专栏stream process

    spark-streaming-kafka-0-10源码分析

    转发请注明原创地址http://www.cnblogs.com/dongxiao-yang/p/7767621.html 本文所研究的spark-streaming代码版本为2.3.0-SNAPSHOT spark-streaming为了匹配0.10以后版本的kafka客户端变化推出了一个目前还是Experimental状态的spark-streaming-kafka-0-10客户端,由于老的0.8

    87710发布于 2020-03-05
  • 来自专栏IT大咖说

    Hadoop集群从180到1500,携程大数据实践之路

    实时方面我们现在支持Jstorm和Spark-streaming,整个集群规模100以上。 平台架构 ? 上图为我们的平台架构。 另外还要考虑是否需要实时分析数据,目前这方面都是用的Spark-Streaming或者Flink。

    1K30发布于 2018-10-23
  • 使用Apache Spark处理Excel文件的简易指南

    spark-sql" % sparkVersion, "org.apache.spark" %% "spark-mllib" % sparkVersion, "org.apache.spark" %% "spark-streaming

    1.7K10编辑于 2024-01-19
  • 来自专栏携程技术

    干货 | 携程实时大数据平台实践分享

    其实在这个统一的实时平台之前,各个部门自己也做一些实时数据分析的应用,但是其中存在很多的问题: 首先是技术选型五花八门,消息队列有用ActiveMQ的,有用RabbitMQ的,也有用Kafka的,分析平台有用Storm的,有用Spark-streaming 消息队列这边Kafka已经成为了一个既定的事实标准;但是在实时处理平台的选择上还是有蛮多候选的系统,如Linkedin的Samza, apache的S4,最主流的当然是Storm和Spark-streaming 如果现在让我重新再来看的话,我觉得Spark-streaming和Storm都是可以的,因为这两个平台现在都已经比较成熟了。 ?

    2.8K60发布于 2018-03-16
领券