首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏stream process

    spark-streaming-kafka包源码分析

    ://www.cnblogs.com/dongxiao-yang/p/5443789.html 最近由于使用sparkstreaming的同学需要对接到部门内部的的kafka集群,由于官方的spark-streaming-kafka 包和现有公司的kafka集群权限系统无法对接,需要研究下spark-streaming-kafka包原有代码以便改造,本文研究的代码版本为spark在github的tag的v1.6.1版本。

    76910发布于 2020-03-04
  • 来自专栏机器学习与系统

    sbt编译Spark App的依赖问题

    这里需要用到一个包spark-streaming-kafka,之前用的spark1.6.0的版本。 provided", "org.apache.spark" %% "spark-streaming" % "1.6.0" % "provided", "org.apache.spark" %% "spark-streaming-kafka provided", "org.apache.spark" %% "spark-streaming" % "2.0.0" % "provided", "org.apache.spark" %% "spark-streaming-kafka 进入网址输入spark-streaming-kafka搜索后数来好几和选项,前面4个结果都是不支持Spark 2.0.0的,这让我误以为Spark 2.0.0还不支持Kafka,这个想法被前面几个搜索结果误导了 spark-streaming-kafka→spark-streaming-kafka-0-8就可以找到了(实际上这个版本也在maven repo的搜索结果,因为靠后我没有去看)!!

    2.1K10发布于 2020-06-17
  • 来自专栏cwl_Java

    快速学习-Kafka Streams

    例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。

    1K10发布于 2020-02-20
  • 来自专栏大数据技术架构

    Apache Hudi 0.5.1版本重磅发布

    Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10.1 将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka

    1.4K30发布于 2020-03-11
  • 来自专栏不温卜火

    Spark Streaming 项目实战 (2) | 从 Kafka中消费数据

    编写App, 从 kafka 读取数据   新建一个Maven项目:spark-streaming-project   在依赖选择上spark-streaming-kafka此次选用0-10_2.11而非

    1.2K11发布于 2020-10-28
  • 来自专栏Hadoop实操

    SparkStreaming读Kafka数据写Kudu

    5.总结 ---- 1.由于Spark中默认没有Spark-Streaming-Kafka的依赖包,需要将相应的依赖包添加到/opt/cloudera/parcels/CDH/jars目录下,然后在spark-env.sh

    6.8K40发布于 2018-07-11
  • 来自专栏IfDataBig

    Spark Streaming 整合 Kafka

    scala.version}</artifactId> <version>2.4.3</version> </dependency> </dependencies> 完整源码见本仓库:spark-streaming-kafka

    1.1K10编辑于 2022-07-27
  • 来自专栏Hadoop实操

    Spark2Streaming读非Kerberos环境的Kafka并写数据到Kudu

    /2.2.0/streaming-kafka-integration.html 2.检查/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下是否有其它版本的spark-streaming-kafka

    1.1K10发布于 2018-08-17
  • 来自专栏Hadoop实操

    SparkStreaming读Kafka数据写HBase

    5.总结 ---- 1.由于Spark中默认没有Spark-Streaming-Kafka的依赖包,需要将相应的依赖包添加到/opt/cloudera/parcels/CDH/jars目录下,然后在spark-env.sh

    6.7K30发布于 2018-07-11
  • 来自专栏Hadoop实操

    Spark2Streaming读Kafka并写入到HBase

    2.2.0/streaming-kafka-integration.html 2.在/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下需要检查下是否有其它版本的spark-streaming-kafka

    1.2K40发布于 2018-08-03
  • 来自专栏Hadoop实操

    Spark2Streaming读Kerberos环境的Kafka并写数据到Kudu

    streaming-kafka-integration.html (可左右滑动) 2.在/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下需要检查下是否有其它版本的spark-streaming-kafka

    2.8K31发布于 2018-07-12
  • 来自专栏ShowMeAI研究中心

    图解大数据 | 流式数据处理-Spark Streaming

    一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。

    2K21编辑于 2022-03-08
  • 来自专栏大数据成神之路

    Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析

    -- spark-streaming-kafka --> <dependency> <groupId>org.apache.spark</groupId>

    1.8K20发布于 2021-04-21
  • 来自专栏大数据架构

    Kafka设计解析(七)- Kafka Stream

    例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。

    2.6K40发布于 2018-06-20
  • 来自专栏数据派THU

    介绍一位分布式流处理新贵:Kafka Stream

    例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。

    10.5K113发布于 2018-01-29
  • 来自专栏sowhat1412

    第二天:Kafka API操作

    例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。

    1.1K10发布于 2020-11-05
  • 来自专栏黑泽君的专栏

    大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

    一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。

    2.4K10发布于 2019-05-13
  • 来自专栏黑泽君的专栏

    大数据技术之_10_Kafka学习_Kafka概述+Kafka集群部署+Kafka工作流程分析+Kafka API实战+Kafka Producer拦截器+Kafka Streams

    例如 Storm 具有专门的 kafka-spout,而 Spark 也提供专门的 spark-streaming-kafka 模块。事实上,Kafka 基本上是主流的流式处理系统的标准数据源。

    1.5K20发布于 2019-03-15
  • 来自专栏全栈程序员必看

    kafka教程_scala为什么用的很少

    例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。

    1.1K30编辑于 2022-11-19
领券