首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何保存Huggingface数据集?

如何保存Huggingface数据集?
EN

Stack Overflow用户
提问于 2022-04-26 23:57:40
回答 2查看 3.5K关注 0票数 4

如何将HuggingFace数据集写入磁盘?

我使用JSONL文件创建了自己的HuggingFace数据集:

数据集({特征:“id”、“文本”、num_rows: 18 })

我想将数据集持久化到磁盘。

有什么更好的方法吗?或者,使用通用库(如joblib或泡菜)是唯一的选择吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2022-04-27 00:09:27

可以使用HuggingFace方法将save_to_disk()数据集保存到磁盘。

例如:

代码语言:javascript
复制
from datasets import load_dataset
  
test_dataset = load_dataset("json", data_files="test.json", split="train")

test_dataset.save_to_disk("test.hf")
票数 8
EN

Stack Overflow用户

发布于 2022-11-20 12:35:11

可以使用to_函数以任何格式保存数据集。请参阅下面的代码片段作为示例:

代码语言:javascript
复制
from datasets import load_dataset
dataset = load_dataset("squad")
for split, dataset in dataset.items():
    dataset.to_json(f"squad-{split}.jsonl")

有关更多信息,请参见正式的Huggingface脚本:https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/videos/save_load_dataset.ipynb#scrollTo=8PZbm6QOAtGO

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/72021814

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档