我有两个spark流,第一个是与产品相关的数据:它们对供应商的价格,货币,它们的描述,供应商id。通过对描述和美元价格的分析,这些数据通过类别进行了丰富。然后将它们保存在拼图数据集中。
第二个流包含有关这些产品拍卖的数据,然后是它们的销售成本和日期。
考虑到产品可以在今天到达第一流,并在一年内销售,我如何加入第二流,以及包含在第一流的镶木数据集中的所有历史?
很明显,结果应该是每个价格区间的平均日收益……
发布于 2018-01-22 18:23:29
我找到了snappydata的一个可能的解决方案,使用它的可变DataFrame:
https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql
报告的示例与claudio-dalicandro描述的示例非常相似
发布于 2018-01-18 14:51:31
如果您在Spark中使用结构化流,那么您可以将第一个流的拼图文件加载到dataframe中。
parquetFileDF = spark.read.parquet("products.parquet")然后你可以得到你的第二个流,并加入拼图文件。
streamingDF = spark.readStream. ...
streamingDF.join(parquetFileDF, "type", "right_join")甚至你也可以加入你的第一个流到第二个流。
霍普,这有帮助。
https://stackoverflow.com/questions/48300019
复制相似问题