首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >什么是AWS S3数据集?

什么是AWS S3数据集?
EN

Stack Overflow用户
提问于 2022-09-28 16:07:55
回答 1查看 115关注 0票数 0

查看awswrangler.s3.to_csvawswrangler.s3.to_parquet的文档,有一个dataset参数。

从测试来看,设置dataset=True除其他外,允许将新数据附加到已经存在的集合中。看起来,当dataset=True时,我不能指定文件名,而AWS自动为添加到指定path中的文件生成名称。

除此之外,我找不到更多关于dataset含义的信息。它是指一般的概念,还是在AWS的上下文中有特定的含义?究竟什么是dataset,什么时候应该设置为True

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-10-04 15:47:21

dataset=True选项允许存储整个数据集,包括所有元数据、索引等。

dataset参数文档

dataset (bool) -如果True将数据集存储为dataset而不是普通文件If True,则启用以下所有参数: partition_cols、模式、数据库、表、描述、参数、columns_comments、concurrent_partitioning、catalog_versioning、projection_enabled、projection_types、projection_ranges、projection_values、projection_intervals、projection_digits、catalog_id、schema_evolution。

请注意在保存数据集时保存的所有额外内容。当您保存到CSV或Parquet时,所有这些信息,如columns_commentsconcurrent_partitioningprojection_values,都将丢失。但另一方面,这些值可能只有当你计划在稍后的某个时候通过游泳者/熊猫对数据进行进一步的操作时才会有用。

还请注意,如果设置了dataset=True,就必须给它提供一个文件名前缀,而不是一个文件名,因为生成的输出将分布在多个文件中。

如果您希望在除Pandas之外的任何其他工具中使用数据,例如将CSV加载到Excel中,那么您很可能希望将dataset=False和输出设置为单个文件。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73884630

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档