我正在尝试使用s3作为源,在电子病历中使用齐柏林飞艇笔记本打印一个流。
%pyspark
from pyspark.streaming import StreamingContext
from pyspark.sql import Row, SparkSession
ssc = StreamingContext(sc, 45)
streams=ssc.textFileStream('s3://realtime-nyc-bike/')
streams.pprint()但是,什么都没有打印出来。Bucket名称正确。问题可能是什么?
发布于 2017-06-15 03:02:15
来自Spark streaming文档:
Spark Streaming仅设置它将在启动时执行的计算,并且还没有真正的处理开始。要在设置完所有转换后开始处理,最后调用
ssc.start() // Start the computation
ssc.awaitTermination() // Wait for the computation to terminatehttps://stackoverflow.com/questions/43650868
复制相似问题