文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来？

问如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来？
EN

Stack Overflow用户

提问于 2018-01-17 19:26:46

回答 2查看 542关注 0票数 7

我有两个spark流，第一个是与产品相关的数据:它们对供应商的价格，货币，它们的描述，供应商id。通过对描述和美元价格的分析，这些数据通过类别进行了丰富。然后将它们保存在拼图数据集中。

第二个流包含有关这些产品拍卖的数据，然后是它们的销售成本和日期。

考虑到产品可以在今天到达第一流，并在一年内销售，我如何加入第二流，以及包含在第一流的镶木数据集中的所有历史？

很明显，结果应该是每个价格区间的平均日收益……

spark-streaming

amazon-kinesis

apache-spark-2.0

apache-spark

pyspark

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-01-22 18:23:29

我找到了snappydata的一个可能的解决方案，使用它的可变DataFrame：

https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql

报告的示例与claudio-dalicandro描述的示例非常相似

票数 1

Stack Overflow用户

发布于 2018-01-18 14:51:31

如果您在Spark中使用结构化流，那么您可以将第一个流的拼图文件加载到dataframe中。

parquetFileDF = spark.read.parquet("products.parquet")

然后你可以得到你的第二个流，并加入拼图文件。

streamingDF = spark.readStream. ...
streamingDF.join(parquetFileDF, "type", "right_join")

甚至你也可以加入你的第一个流到第二个流。

霍普，这有帮助。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48300019

复制

相似问题

问如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将spark live流与另一个流在整个生命周期中收集的所有数据连接起来？
EN