我处理分区数据(分区分割或带有“分区”列的SQL表)。我希望Kedro从我在运行时提供的分区中加载和保存数据(例如kedro运行-params分区:a)。分区的数量很大,而且是动态的。
我用星火。是否有一种以SparkDataSet或SparkJDBCDataSet所需方式加载/保存数据的方法?
发布于 2022-01-23 12:56:44
一个快速的谷歌建议,星火JDBCDriver可以使用时间戳列的分区。Kedro在幕后所做的一切就是将catlaog、load_args和save_args传递给本地驱动程序,这样就可以了。
load_args
save_args
另一种方法是使用生命周期钩子 (如before_pipeline_run ),检查运行参数,然后在这一点上注入一些自定义逻辑,因为此时您可以轻松地检查--params运行参数。
before_pipeline_run
--params
最后一个想法--如果您要使用的是子类和扩展SQL数据集,您可以很容易地将它扩展到您想要的方式。您将无法轻松地传递运行--params,但是检索env变量或自定义目录参数很容易。
https://stackoverflow.com/questions/70815517
相似问题