我没有任何具体的查询,但设计问题。我是新的火花/流,因此,请原谅我,如果我是问愚蠢的问题。如果问题不适合本论坛,请删除。
因此,基本上我们有这样的要求:我们必须每小时处理大量的数据,并为在kibana (弹性搜索)中的报告生成o/p。假设我们有两个数据模型,如下所示。DataModel-1表示使用该哈希的人的哈希标记和用户of。第二,2包含zip和用户在该zip中的位置。DataModel-1数据是流数据,我们每秒得到几乎40K事件。DataModel-2不经常更改。在输出中,我们需要数据,通过这些数据,我们可以看到给定zip的标签趋势。就像在给定的时间里,有多少用户使用给定的标签在推特。
我有以下问题
DataModel-1 [{散列:#IAMHAPPY,用户: 123,134,4566,78899 }] DataModel-2 [{ zip: zip1用户: 123,134 },{ zip: zip2用户: 4566,78899 }] 报表数据模型[{ zip: zip1,散列:#IAMHAPPY },{ zip: zip2,hash:#IAMHAPPY }]
发布于 2017-11-16 06:42:43
发布于 2022-05-16 08:58:26
我的意见如下:
https://stackoverflow.com/questions/47286594
复制相似问题