文章/答案/技术大牛

发布

问火花流设计问题
EN

Stack Overflow用户

提问于 2017-11-14 13:02:19

回答 2查看 102关注 0票数 0

我没有任何具体的查询，但设计问题。我是新的火花/流，因此，请原谅我，如果我是问愚蠢的问题。如果问题不适合本论坛，请删除。

因此，基本上我们有这样的要求:我们必须每小时处理大量的数据，并为在kibana (弹性搜索)中的报告生成o/p。假设我们有两个数据模型，如下所示。DataModel-1表示使用该哈希的人的哈希标记和用户of。第二，2包含zip和用户在该zip中的位置。DataModel-1数据是流数据，我们每秒得到几乎40K事件。DataModel-2不经常更改。在输出中，我们需要数据，通过这些数据，我们可以看到给定zip的标签趋势。就像在给定的时间里，有多少用户使用给定的标签在推特。

我有以下问题

我们可以用电火花流和卡夫卡吗？然而，我担心的是，我们是否能够以每秒40k的速度进行缩放。虽然我们会得到答案，因为我们已经启动了POC。但只是想知道其他人的经验和调整，我们可以申请实现它。
如果我要进行批量处理，比如每1小时一次，那么什么应该是好的数据存储，我可以在那里保存tweet，然后再处理它。甲骨文和MySQL会很好地存储数据，然后将其加载到spark中吗？还是我应该把它转储到hdfs里？
除了Kibana以外，还有什么好的报告平台？

DataModel-1 [{散列：#IAMHAPPY，用户: 123,134,4566,78899 }] DataModel-2 [{ zip: zip1用户: 123,134 }，{ zip: zip2用户: 4566,78899 }] 报表数据模型[{ zip: zip1，散列：#IAMHAPPY }，{ zip: zip2，hash：#IAMHAPPY }]

spark-streaming

apache-spark-2.0

apache-spark

回答 2

Stack Overflow用户

发布于 2017-11-16 06:42:43

是。我认为通过你的任务，40K的信息/不是什么难触及的东西。但是..。
如果你打算每1小时处理一次，不要使用火花流。您可以在1小时内将数据存储到HDFS，然后使用正常的脱机火花应用程序进行处理。这比在你的应用程序中流要合理得多。
我不知道但麋鹿很好。

票数 1

Stack Overflow用户

发布于 2022-05-16 08:58:26

我的意见如下：

当然，您可以使用星火流与卡夫卡，它应该满足您的要求40K事件每秒。
但是，由于您将执行批处理操作，因此不建议使用星火流，您可以将数据转储到HDFS本身中，并使用像Apache这样的开放源代码工具来使用spark进行处理。文章
Afaik将是一个很好的适合这里，数据模型可视化grafana现在也提供了构建仪表板的能力。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47286594

复制

相似问题

问火花流设计问题
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花流设计问题EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问火花流设计问题
EN