首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >awswrangler将拼接数据帧写入单个文件

awswrangler将拼接数据帧写入单个文件
EN

Stack Overflow用户
提问于 2021-09-15 02:18:14
回答 1查看 258关注 0票数 0

我正在创建一个不能直接放入内存的非常大的文件。因此,我在S3中创建了一堆小文件,并且正在编写一个脚本,可以读取这些文件并合并它们。我正在使用aws wrangler来完成此操作

我的代码如下:

代码语言:javascript
复制
    try:
        dfs = wr.s3.read_parquet(path=input_folder, path_suffix=['.parquet'], chunked=True, use_threads=True)
        for df in dfs:
            path = wr.s3.to_parquet(df=df, dataset=True, path=target_path, mode="append")
            logger.info(path)
    except Exception as e:
        logger.error(e, exc_info=True)
        logger.info(e)

问题是w4.s3.to_parquet创建了很多文件,而不是写在一个文件中,而且我也不能删除chunked=True,否则我的程序会因为OOM而失败

如何在s3中编写单个文件。

EN

回答 1

Stack Overflow用户

发布于 2021-11-05 12:00:38

AWS Data Wrangler正在写入多个文件,因为您指定了dataset=True。只要您指定的是完整的path,删除此标志或切换到False就可以完成此任务

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69186376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档