首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分区数据上的Kedro管道

分区数据上的Kedro管道
EN

Stack Overflow用户
提问于 2022-01-22 17:47:00
回答 1查看 365关注 0票数 0

我处理分区数据(分区分割或带有“分区”列的SQL表)。我希望Kedro从我在运行时提供的分区中加载和保存数据(例如kedro运行-params分区:a)。分区的数量很大,而且是动态的。

我用星火。是否有一种以SparkDataSet或SparkJDBCDataSet所需方式加载/保存数据的方法?

EN

回答 1

Stack Overflow用户

发布于 2022-01-23 12:56:44

一个快速的谷歌建议,星火JDBCDriver可以使用时间戳列的分区。Kedro在幕后所做的一切就是将catlaog、load_argssave_args传递给本地驱动程序,这样就可以了。

另一种方法是使用生命周期钩子 (如before_pipeline_run ),检查运行参数,然后在这一点上注入一些自定义逻辑,因为此时您可以轻松地检查--params运行参数。

最后一个想法--如果您要使用的是子类和扩展SQL数据集,您可以很容易地将它扩展到您想要的方式。您将无法轻松地传递运行--params,但是检索env变量或自定义目录参数很容易。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70815517

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档