文章/答案/技术大牛

发布

社区首页 >问答首页 >在kedro中将csv转换为拼花

问在kedro中将csv转换为拼花
EN

Stack Overflow用户

提问于 2020-02-25 03:29:27

回答 1查看 311关注 0票数 2

我有相当大的CSV，无法放入内存中，我需要将其转换为.parquet文件才能与vaex一起工作。

这是我的目录：

raw_data:
    type: kedro.contrib.io.pyspark.SparkDataSet
    filepath: data/01_raw/data.csv
    file_format: csv

parquet_data:
    type: ParquetLocalDataSet
    filepath: data/02_intermediate/data.parquet

节点：

def convert_to_parquet(data: SparkDataSet) -> ParquetLocalDataSet:
    return data.coalesce(1)

和一个管道：

def create_pipeline(**kwargs):
    return Pipeline(
        [
            node(
                func=convert_to_parquet,
                inputs="raw_data",
                outputs="parquet_data",
                name="data_to_parquet",
            ),
        ]
    )

但是如果我执行kedro run，我会收到这个错误kedro.io.core.DataSetError: Failed while saving data to data set ParquetLocalDataSet(engine=auto, filepath=data/02_intermediate/data.parquet, save_args={}). 'DataFrame' object has no attribute 'to_parquet'

我应该修复什么来转换我的数据集？

python

kedro

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-02-25 03:59:07

您可以尝试执行以下操作。这在过去对我来说是有效的。

parquet_data:
    type: kedro.contrib.io.pyspark.SparkDataSet
    file_format: 'parquet'
    filepath: data/02_intermediate/data.parquet
    save_args:

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/60382704

复制

相似问题

问在kedro中将csv转换为拼花
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在kedro中将csv转换为拼花EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在kedro中将csv转换为拼花
EN