首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >火花流设计问题

火花流设计问题
EN

Stack Overflow用户
提问于 2017-11-14 13:02:19
回答 2查看 102关注 0票数 0

我没有任何具体的查询,但设计问题。我是新的火花/流,因此,请原谅我,如果我是问愚蠢的问题。如果问题不适合本论坛,请删除。

因此,基本上我们有这样的要求:我们必须每小时处理大量的数据,并为在kibana (弹性搜索)中的报告生成o/p。假设我们有两个数据模型,如下所示。DataModel-1表示使用该哈希的人的哈希标记和用户of。第二,2包含zip和用户在该zip中的位置。DataModel-1数据是流数据,我们每秒得到几乎40K事件。DataModel-2不经常更改。在输出中,我们需要数据,通过这些数据,我们可以看到给定zip的标签趋势。就像在给定的时间里,有多少用户使用给定的标签在推特。

我有以下问题

  1. 我们可以用电火花流和卡夫卡吗?然而,我担心的是,我们是否能够以每秒40k的速度进行缩放。虽然我们会得到答案,因为我们已经启动了POC。但只是想知道其他人的经验和调整,我们可以申请实现它。
  2. 如果我要进行批量处理,比如每1小时一次,那么什么应该是好的数据存储,我可以在那里保存tweet,然后再处理它。甲骨文和MySQL会很好地存储数据,然后将其加载到spark中吗?还是我应该把它转储到hdfs里?
  3. 除了Kibana以外,还有什么好的报告平台?

DataModel-1 [{散列:#IAMHAPPY,用户: 123,134,4566,78899 }] DataModel-2 [{ zip: zip1用户: 123,134 },{ zip: zip2用户: 4566,78899 }] 报表数据模型[{ zip: zip1,散列:#IAMHAPPY },{ zip: zip2,hash:#IAMHAPPY }]

EN

回答 2

Stack Overflow用户

发布于 2017-11-16 06:42:43

  1. 是。我认为通过你的任务,40K的信息/不是什么难触及的东西。但是..。
  2. 如果你打算每1小时处理一次,不要使用火花流。您可以在1小时内将数据存储到HDFS,然后使用正常的脱机火花应用程序进行处理。这比在你的应用程序中流要合理得多。
  3. 我不知道但麋鹿很好。
票数 1
EN

Stack Overflow用户

发布于 2022-05-16 08:58:26

我的意见如下:

  1. 当然,您可以使用星火流与卡夫卡,它应该满足您的要求40K事件每秒。
  2. 但是,由于您将执行批处理操作,因此不建议使用星火流,您可以将数据转储到HDFS本身中,并使用像Apache这样的开放源代码工具来使用spark进行处理。文章
  3. Afaik将是一个很好的适合这里,数据模型可视化grafana现在也提供了构建仪表板的能力。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47286594

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档