问分区数据上的Kedro管道
EN

Stack Overflow用户

提问于 2022-01-22 17:47:00

回答 1查看 365关注 0票数 0

我处理分区数据(分区分割或带有“分区”列的SQL表)。我希望Kedro从我在运行时提供的分区中加载和保存数据(例如kedro运行-params分区:a)。分区的数量很大，而且是动态的。

我用星火。是否有一种以SparkDataSet或SparkJDBCDataSet所需方式加载/保存数据的方法？

发布于 2022-01-23 12:56:44

一个快速的谷歌建议，星火JDBCDriver可以使用时间戳列的分区。Kedro在幕后所做的一切就是将catlaog、load_args和save_args传递给本地驱动程序，这样就可以了。

另一种方法是使用生命周期钩子 (如before_pipeline_run )，检查运行参数，然后在这一点上注入一些自定义逻辑，因为此时您可以轻松地检查--params运行参数。

最后一个想法--如果您要使用的是子类和扩展SQL数据集，您可以很容易地将它扩展到您想要的方式。您将无法轻松地传递运行--params，但是检索env变量或自定义目录参数很容易。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70815517

复制

相似问题

问分区数据上的Kedro管道EN