://www.cnblogs.com/dongxiao-yang/p/5443789.html 最近由于使用sparkstreaming的同学需要对接到部门内部的的kafka集群,由于官方的spark-streaming-kafka 包和现有公司的kafka集群权限系统无法对接,需要研究下spark-streaming-kafka包原有代码以便改造,本文研究的代码版本为spark在github的tag的v1.6.1版本。
这里需要用到一个包spark-streaming-kafka,之前用的spark1.6.0的版本。 provided", "org.apache.spark" %% "spark-streaming" % "1.6.0" % "provided", "org.apache.spark" %% "spark-streaming-kafka provided", "org.apache.spark" %% "spark-streaming" % "2.0.0" % "provided", "org.apache.spark" %% "spark-streaming-kafka 进入网址输入spark-streaming-kafka搜索后数来好几和选项,前面4个结果都是不支持Spark 2.0.0的,这让我误以为Spark 2.0.0还不支持Kafka,这个想法被前面几个搜索结果误导了 spark-streaming-kafka→spark-streaming-kafka-0-8就可以找到了(实际上这个版本也在maven repo的搜索结果,因为靠后我没有去看)!!
例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。
Spark版本从2.1.0升级到2.4.4 将Avro版本从1.7.7升级到1.8.2 将Parquet版本从1.8.1升级到1.10.1 将Kafka版本从0.8.2.1升级到2.0.0,这是由于将spark-streaming-kafka
编写App, 从 kafka 读取数据 新建一个Maven项目:spark-streaming-project 在依赖选择上spark-streaming-kafka此次选用0-10_2.11而非
5.总结 ---- 1.由于Spark中默认没有Spark-Streaming-Kafka的依赖包,需要将相应的依赖包添加到/opt/cloudera/parcels/CDH/jars目录下,然后在spark-env.sh
scala.version}</artifactId> <version>2.4.3</version> </dependency> </dependencies> 完整源码见本仓库:spark-streaming-kafka
/2.2.0/streaming-kafka-integration.html 2.检查/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下是否有其它版本的spark-streaming-kafka
5.总结 ---- 1.由于Spark中默认没有Spark-Streaming-Kafka的依赖包,需要将相应的依赖包添加到/opt/cloudera/parcels/CDH/jars目录下,然后在spark-env.sh
2.2.0/streaming-kafka-integration.html 2.在/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下需要检查下是否有其它版本的spark-streaming-kafka
streaming-kafka-integration.html (可左右滑动) 2.在/opt/cloudera/parcels/SPARK2/lib/spark2/jars目录下需要检查下是否有其它版本的spark-streaming-kafka
一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。
-- spark-streaming-kafka --> <dependency> <groupId>org.apache.spark</groupId>
例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。
例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。
例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。
一些“核心”数据源已经被打包到 Spark Streaming 的 Maven 工件中,而其他的一些则可以通过 spark-streaming-kafka 等附加工件获取。
例如 Storm 具有专门的 kafka-spout,而 Spark 也提供专门的 spark-streaming-kafka 模块。事实上,Kafka 基本上是主流的流式处理系统的标准数据源。
例如Storm具有专门的kafka-spout,而Spark也提供专门的spark-streaming-kafka模块。事实上,Kafka基本上是主流的流式处理系统的标准数据源。