文章/答案/技术大牛

发布

社区首页 >问答首页 >如何从拥抱式变压器文本标记器中提取位置输入输出识别码？

问如何从拥抱式变压器文本标记器中提取位置输入输出识别码？
EN

Stack Overflow用户

提问于 2020-05-15 14:22:36

回答 1查看 950关注 0票数 3

我想用预先训练过的俄罗斯伯特来解决压力预测任务。

输入数据如下所示：

граммовсверху=000100000001000

零意味着没有压力。1表示应力位置特征。

我想把它映射成word ->元音数字索引

所以它就像-> 1сверху-> 1

因此，对于每个令牌，它应该是一个具有softmax的线性层。

我理解这个部分，但我很难处理文本预处理，因为文本标记符可以将一个单词拆分为子单词标记。

Tokenizator接受一个输入字符串并返回如下的令牌

bert_tokenizer.encode('граммов сверху')
->
[101, 44505, 26656, 102]

那么，如何得到输入字符和单词之间的位置映射呢？

期望的输出应该类似于[0，7，8，14]

我试着读docs https://huggingface.co/transformers/main_classes/tokenizer.html

并找到了convert_ids_to_tokens函数，它的工作原理如下

encoded = bert_tokenizer.encode('граммов сверху')
bert_tokenizer.convert_ids_to_tokens(encoded)
->
['[CLS]', 'граммов', 'сверху', '[SEP]']

但我不知道如何使用原始字符串和应力索引来计算令牌的应力位置号。

python

nlp

pytorch

huggingface-transformers

回答 1

Stack Overflow用户

发布于 2020-05-28 13:21:15

原来，令牌器有return_offsets_mapping param，这解决了我的问题。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61821515

复制

相似问题

问如何从拥抱式变压器文本标记器中提取位置输入输出识别码？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从拥抱式变压器文本标记器中提取位置输入输出识别码？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何从拥抱式变压器文本标记器中提取位置输入输出识别码？
EN