文章/答案/技术大牛

发布

社区首页 >问答首页 >awswrangler将拼接数据帧写入单个文件

问awswrangler将拼接数据帧写入单个文件
EN

Stack Overflow用户

提问于 2021-09-15 02:18:14

回答 1查看 258关注 0票数 0

我正在创建一个不能直接放入内存的非常大的文件。因此，我在S3中创建了一堆小文件，并且正在编写一个脚本，可以读取这些文件并合并它们。我正在使用aws wrangler来完成此操作

我的代码如下：

    try:
        dfs = wr.s3.read_parquet(path=input_folder, path_suffix=['.parquet'], chunked=True, use_threads=True)
        for df in dfs:
            path = wr.s3.to_parquet(df=df, dataset=True, path=target_path, mode="append")
            logger.info(path)
    except Exception as e:
        logger.error(e, exc_info=True)
        logger.info(e)

问题是w4.s3.to_parquet创建了很多文件，而不是写在一个文件中，而且我也不能删除chunked=True，否则我的程序会因为OOM而失败

如何在s3中编写单个文件。

amazon-s3

parquet

aws-data-wrangler

amazon-web-services

回答 1

Stack Overflow用户

发布于 2021-11-05 12:00:38

AWS Data Wrangler正在写入多个文件，因为您指定了dataset=True。只要您指定的是完整的path，删除此标志或切换到False就可以完成此任务

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69186376

复制

相似问题

问awswrangler将拼接数据帧写入单个文件
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问awswrangler将拼接数据帧写入单个文件EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问awswrangler将拼接数据帧写入单个文件
EN