我正在尝试将我的Kedro管道输出到HDFS文件系统。但我无法在互联网上看到如何做到这一点,也无法在Kedro文档上看到。如果有人在目录中配置了kedro,请共享一个示例代码,如何做到这一点。
还如何使用凭据安全地连接hdfs
我有熊猫的数据。
这个catalog.yml的条目是什么样的,我在哪里提到凭据?
发布于 2022-05-04 19:47:18
在目录中,您可以像hdfs://user@server:port/path/to/data那样定义filepath。
https://kedro.readthedocs.io/en/stable/data/data_catalog.html#specifying-the-location-of-the-dataset
发布于 2022-05-04 20:34:22
假设您可以从外部Kedro (独立火花)写到hdfs,这应该是直接从Kedro。
在目录文件中使用sparkDataSet,并在spark.yml中定义诸如单元格、元存储等属性,这应该是它。
然后,就像上面提到的Rahul一样,您需要指定要写入的hdfs位置的完整路径,如果您仍然面临问题,请共享一些快照。
dataset_name:
type: spark.SparkDataSet
filepath: hdfs://your_bucket/location/file.parqhttps://stackoverflow.com/questions/72118483
复制相似问题