我正在使用Spark-Kafka集成在我的项目上工作,这是找到twitter上的热门标签。为此,我使用Kafka通过tweepy Streaming推送推文,而在消费者端,我使用Spark Streaming进行DStream和RDD转换……
我的问题是,通过Kafka运行流媒体进程一段时间是否会导致存储问题,因为我在本地机器上同时运行生产者和消费者……我可以安全地执行生成器多长时间(因为我需要它运行一段时间来获得正确的趋势计数)?
另外,如果我在AWS等云平台上运行它,会不会更好?
发布于 2020-01-06 05:44:12
目前还不清楚你使用的是什么时间窗口,也不清楚Kafka在哪里运行。计算超过10分钟或一个小时左右的趋势,应该不会占用Spark集群上的太多磁盘。
Kafka存储当然需要足够大,以满足您的用例需求
推文不是很大。过滤掉hashtag只会让它们变小。
注意: Spark在这方面似乎有点过头了,因为你可以用Kafka Connect来摄取,用ksqlDB来计算
发布于 2020-01-06 01:42:07
我同意。在运行流媒体服务器时,存储一直是一个难题,亚马逊网络服务提供了Amazon MSK,这是一个托管的Kafka流媒体服务器,它的优点是您可以集成s3进行备份,其成本比本地存储低得多,除了耐用性之外,还可以动态配置EBS存储
https://aws.amazon.com/blogs/big-data/best-practices-for-running-apache-kafka-on-aws/
https://stackoverflow.com/questions/59602467
复制相似问题