如何将HuggingFace数据集写入磁盘?
我使用JSONL文件创建了自己的HuggingFace数据集:
数据集({特征:“id”、“文本”、num_rows: 18 })
我想将数据集持久化到磁盘。
有什么更好的方法吗?或者,使用通用库(如joblib或泡菜)是唯一的选择吗?
发布于 2022-04-27 00:09:27
可以使用HuggingFace方法将save_to_disk()数据集保存到磁盘。
例如:
from datasets import load_dataset
test_dataset = load_dataset("json", data_files="test.json", split="train")
test_dataset.save_to_disk("test.hf")发布于 2022-11-20 12:35:11
可以使用to_函数以任何格式保存数据集。请参阅下面的代码片段作为示例:
from datasets import load_dataset
dataset = load_dataset("squad")
for split, dataset in dataset.items():
dataset.to_json(f"squad-{split}.jsonl")有关更多信息,请参见正式的Huggingface脚本:https://colab.research.google.com/github/huggingface/notebooks/blob/master/course/videos/save_load_dataset.ipynb#scrollTo=8PZbm6QOAtGO
https://stackoverflow.com/questions/72021814
复制相似问题