文章/答案/技术大牛

发布

社区首页 >问答首页 >在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么？

问在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么？
EN

Stack Overflow用户

提问于 2020-01-06 01:34:33

回答 2查看 125关注 0票数 0

我正在使用Spark-Kafka集成在我的项目上工作，这是找到twitter上的热门标签。为此，我使用Kafka通过tweepy Streaming推送推文，而在消费者端，我使用Spark Streaming进行DStream和RDD转换……

我的问题是，通过Kafka运行流媒体进程一段时间是否会导致存储问题，因为我在本地机器上同时运行生产者和消费者……我可以安全地执行生成器多长时间(因为我需要它运行一段时间来获得正确的趋势计数)？

另外，如果我在AWS等云平台上运行它，会不会更好？

apache-spark

apache-kafka

spark-streaming

twitter-streaming-api

spark-streaming-kafka

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-01-06 05:44:12

目前还不清楚你使用的是什么时间窗口，也不清楚Kafka在哪里运行。计算超过10分钟或一个小时左右的趋势，应该不会占用Spark集群上的太多磁盘。

Kafka存储当然需要足够大，以满足您的用例需求

推文不是很大。过滤掉hashtag只会让它们变小。

注意: Spark在这方面似乎有点过头了，因为你可以用Kafka Connect来摄取，用ksqlDB来计算

票数 1

Stack Overflow用户

发布于 2020-01-06 01:42:07

我同意。在运行流媒体服务器时，存储一直是一个难题，亚马逊网络服务提供了Amazon MSK，这是一个托管的Kafka流媒体服务器，它的优点是您可以集成s3进行备份，其成本比本地存储低得多，除了耐用性之外，还可以动态配置EBS存储

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/59602467

复制

相似问题

问在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么？
EN