运行fairseq-preprocess脚本将生成二进制文件,其整数索引对应于字典中的令牌in。
当我不再有原始的标记化文本时,探索二进制数据集的最简单方法是什么?文档对如何为调试目的加载数据集没有太多的说明。
发布于 2022-09-29 12:20:56
为此,我加载了经过训练的模型,并使用它将二进制语句解码回字符串:
from fairseq.models.transformer import TransformerModel
model_dir = ???
data_dir = ???
model = TransformerModel.from_pretrained(
model_dir,
checkpoint_file='checkpoint_best.pt',
data_name_or_path=data_dir,
bpe='sentencepiece',
sentencepiece_model=model_dir + '/sentencepiece.joint.bpe.model'
)
model.task.load_dataset('train')
data_bin = model.task.datasets['train']
train_pairs = [
(model.decode(item['source']), model.decode(item['target']))
for item in data_bin
]https://stackoverflow.com/questions/72517066
复制相似问题