问如何检查二进制FairSeq数据集中的值？
EN

Stack Overflow用户

提问于 2022-06-06 11:34:40

回答 1查看 133关注 0票数 3

运行fairseq-preprocess脚本将生成二进制文件，其整数索引对应于字典中的令牌in。

当我不再有原始的标记化文本时，探索二进制数据集的最简单方法是什么？文档对如何为调试目的加载数据集没有太多的说明。

fairseq

pytorch

machine-translation

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-09-29 12:20:56

为此，我加载了经过训练的模型，并使用它将二进制语句解码回字符串：

from fairseq.models.transformer import TransformerModel

model_dir = ???
data_dir = ???

model = TransformerModel.from_pretrained(
    model_dir,
    checkpoint_file='checkpoint_best.pt',
    data_name_or_path=data_dir,
    bpe='sentencepiece', 
    sentencepiece_model=model_dir + '/sentencepiece.joint.bpe.model'
)
model.task.load_dataset('train')
data_bin = model.task.datasets['train']
train_pairs = [
    (model.decode(item['source']), model.decode(item['target'])) 
    for item in data_bin
]

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/72517066

复制

相似问题

问如何检查二进制FairSeq数据集中的值？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何检查二进制FairSeq数据集中的值？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何检查二进制FairSeq数据集中的值？
EN