首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么?

在本地机器上集成Spark Kafka进行实时twitter流媒体分析的缺点是什么?
EN

Stack Overflow用户
提问于 2020-01-06 01:34:33
回答 2查看 125关注 0票数 0

我正在使用Spark-Kafka集成在我的项目上工作,这是找到twitter上的热门标签。为此,我使用Kafka通过tweepy Streaming推送推文,而在消费者端,我使用Spark Streaming进行DStream和RDD转换……

我的问题是,通过Kafka运行流媒体进程一段时间是否会导致存储问题,因为我在本地机器上同时运行生产者和消费者……我可以安全地执行生成器多长时间(因为我需要它运行一段时间来获得正确的趋势计数)?

另外,如果我在AWS等云平台上运行它,会不会更好?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2020-01-06 05:44:12

目前还不清楚你使用的是什么时间窗口,也不清楚Kafka在哪里运行。计算超过10分钟或一个小时左右的趋势,应该不会占用Spark集群上的太多磁盘。

Kafka存储当然需要足够大,以满足您的用例需求

推文不是很大。过滤掉hashtag只会让它们变小。

注意: Spark在这方面似乎有点过头了,因为你可以用Kafka Connect来摄取,用ksqlDB来计算

票数 1
EN

Stack Overflow用户

发布于 2020-01-06 01:42:07

我同意。在运行流媒体服务器时,存储一直是一个难题,亚马逊网络服务提供了Amazon MSK,这是一个托管的Kafka流媒体服务器,它的优点是您可以集成s3进行备份,其成本比本地存储低得多,除了耐用性之外,还可以动态配置EBS存储

https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59602467

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档