首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序

未能找到数据源:请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序
EN

Stack Overflow用户
提问于 2022-01-15 20:54:37
回答 1查看 2.2K关注 0票数 0

你好,我正在尝试使用pyspark + kafka,为了做到这一点,我执行这个命令,以便设置kafka-集群。

代码语言:javascript
复制
zookeeper-server-start.sh $KAFKA_HOME/../config/zookeeper.properties

kafka-server-start.sh $KAFKA_HOME/../config/*-0.properties & kafka-server-start.sh $KAFKA_HOME/../config/*-1.properties

spark-3.2.0-bin-hadoop2-7

  • Kafka版本是- kafka_2.13-3.0.0

  • pyspark版本是3.2.0

python代码是:

代码语言:javascript
复制
spark_version = '3.2.0'
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-sql-kafka-0-10_2.12:{}'.format(spark_version)

spark = SparkSession \
    .builder \
    .appName("TP3") \
    .getOrCreate()

!spark-submit --class TP3 --packages org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.0 TweetCount.ipynb

这将返回以下错误:

错误:加载类TP3失败。

当我执行spark.readStream时

代码语言:javascript
复制
consumer = KafkaConsumer('topic')
df_kafka = spark.readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", 'localhost:9092') \
    .option("subscribe", 'topic') \
    .load()

我得到了一个错误:

未能找到数据来源:卡夫卡。请按照“结构化流+ Kafka集成指南”的部署部分部署应用程序。

我如何才能执行读流,以便从卡夫卡读物与火种?

谢谢

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-16 00:15:32

最后,我在笔记本的开头用下面的代码解决了问题。

代码语言:javascript
复制
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages org.apache.spark:spark-streaming-kafka-0-10_2.12:3.2.0,org.apache.spark:spark-sql-kafka-0-10_2.12:3.2.0 pyspark-shell'
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70725346

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档