首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来?

如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来?
EN

Stack Overflow用户
提问于 2018-01-17 19:26:46
回答 2查看 542关注 0票数 7

我有两个spark流,第一个是与产品相关的数据:它们对供应商的价格,货币,它们的描述,供应商id。通过对描述和美元价格的分析,这些数据通过类别进行了丰富。然后将它们保存在拼图数据集中。

第二个流包含有关这些产品拍卖的数据,然后是它们的销售成本和日期。

考虑到产品可以在今天到达第一流,并在一年内销售,我如何加入第二流,以及包含在第一流的镶木数据集中的所有历史?

很明显,结果应该是每个价格区间的平均日收益……

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-01-22 18:23:29

我找到了snappydata的一个可能的解决方案,使用它的可变DataFrame:

https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql

报告的示例与claudio-dalicandro描述的示例非常相似

票数 1
EN

Stack Overflow用户

发布于 2018-01-18 14:51:31

如果您在Spark中使用结构化流,那么您可以将第一个流的拼图文件加载到dataframe中。

代码语言:javascript
复制
parquetFileDF = spark.read.parquet("products.parquet")

然后你可以得到你的第二个流,并加入拼图文件。

代码语言:javascript
复制
streamingDF = spark.readStream. ...
streamingDF.join(parquetFileDF, "type", "right_join")

甚至你也可以加入你的第一个流到第二个流。

霍普,这有帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48300019

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档