首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何从Torchtext的sentencepiece_numericalizer中的i生成文本?

如何从Torchtext的sentencepiece_numericalizer中的i生成文本?
EN

Data Science用户
提问于 2022-04-28 14:05:11
回答 1查看 143关注 0票数 0

火炬文本sentencepiece_numericalizer()输出一个生成器,其索引SentencePiece模型对应于输入句子中的令牌。从发电机,我可以得到身份证。

我的问题是如何在训练后拿回课文?

例如

代码语言:javascript
复制
>>> sp_id_generator = sentencepiece_numericalizer(sp_model)
>>> list_a = ["sentencepiece encode as pieces", "examples to   try!"]
>>> list(sp_id_generator(list_a))
    [[9858, 9249, 1629, 1305, 1809, 53, 842],
     [2347, 13, 9, 150, 37]]

如何将list_a转换回t(即"sentencepiece encode as pieces", "examples to try!")?

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-04-29 07:52:43

Torchtext没有实现这一点,但是您可以直接使用SentencePiece封装。可从PyPi安装。

代码语言:javascript
复制
import sentencepiece as spm
sp = spm.SentencePieceProcessor(model_file='test/test_model.model')
sp.decode([9858, 9249, 1629, 1305, 1809, 53, 842])
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/110454

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档