文章/答案/技术大牛

发布

问星火卡夫卡WordCount Python
EN

Stack Overflow用户

提问于 2015-05-14 00:44:54

回答 1查看 2.4K关注 0票数 1

我刚刚开始玩apache，并试图让kafka字数在python中工作。我决定使用python作为一种语言，我可以在其他大数据技术中使用它，而且DataBricks也通过spark提供了他们的课程。

我的问题是:我从这里开始运行基本的单词计数示例：wordcount.py，它似乎启动并连接到kafka日志，但我看不到它实际上产生了一个单词计数。然后，我添加了下面的行来写入文本文件，它只生成一堆空的文本文件。它是连接到卡夫卡的主题和有数据在主题中，我怎么能看到它对数据的实际作用，如果有什么吗？会不会是个时间问题？干杯。

卡夫卡数据处理代码

                counts = lines.flatMap(lambda line: line.split("|")) \
                    .map(lambda word: (word, 1)) \
                    .reduceByKey(lambda a, b: a+b) \
                    .saveAsTextFiles("sparkfiles")

卡夫卡主题中的数据

                    16|16|Mr|Joe|T|Bloggs

python

apache-spark

apache-kafka

spark-streaming

pyspark

回答 1

Stack Overflow用户

发布于 2015-05-14 01:18:06

抱歉，我是个白痴。当我在spark应用程序运行时向主题生成数据时，我可以在输出中看到以下内容

                (u'a', 29)
                (u'count', 29)
                (u'This', 29)
                (u'is', 29)
                (u'so', 29)
                (u'words', 29)
                (u'spark', 29)
                (u'the', 29)
                (u'can', 29)
                (u'sentence', 29)

这表示每个单词在刚才由spark处理的块中表示的次数。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30227525

复制

相似问题

问星火卡夫卡WordCount Python
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火卡夫卡WordCount PythonEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问星火卡夫卡WordCount Python
EN