文章/答案/技术大牛

发布

社区首页 >问答首页 >未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序

问未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序
EN

Stack Overflow用户

提问于 2022-01-15 20:54:37

回答 1查看 2.2K关注 0票数 0

你好，我正在尝试使用pyspark + kafka，为了做到这一点，我执行这个命令，以便设置kafka-集群。

zookeeper-server-start.sh $KAFKA_HOME/../config/zookeeper.properties

kafka-server-start.sh $KAFKA_HOME/../config/*-0.properties & kafka-server-start.sh $KAFKA_HOME/../config/*-1.properties

spark-3.2.0-bin-hadoop2-7

Kafka版本是- kafka_2.13-3.0.0

pyspark版本是3.2.0

python代码是：

spark_version = '3.2.0'
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.12:{}'.format(spark_version)

spark = SparkSession \
    .builder \
    .appName("TP3") \
    .getOrCreate()

!spark-submit --class TP3 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.0 TweetCount.ipynb

这将返回以下错误：

错误:加载类TP3失败。

当我执行spark.readStream时

consumer = KafkaConsumer('topic')
df_kafka = spark.readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", 'localhost:9092') \
    .option("subscribe", 'topic') \
    .load()

我得到了一个错误：

未能找到数据来源:卡夫卡。请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序。

我如何才能执行读流，以便从卡夫卡读物与火种？

谢谢

apache-spark

pyspark

apache-kafka

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-16 00:15:32

最后，我在笔记本的开头用下面的代码解决了问题。

import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-10_2.12:3.2.0,org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.0 pyspark-shell'

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70725346

复制

相似问题

问未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序
EN