我想用预先训练过的俄罗斯伯特来解决压力预测任务。
输入数据如下所示:
граммовсверху=000100000001000
零意味着没有压力。1表示应力位置特征。
我想把它映射成word ->元音数字索引
所以它就像-> 1сверху-> 1
因此,对于每个令牌,它应该是一个具有softmax的线性层。
我理解这个部分,但我很难处理文本预处理,因为文本标记符可以将一个单词拆分为子单词标记。
Tokenizator接受一个输入字符串并返回如下的令牌
bert_tokenizer.encode('граммов сверху')
->
[101, 44505, 26656, 102]那么,如何得到输入字符和单词之间的位置映射呢?
期望的输出应该类似于[0,7,8,14]
我试着读docs https://huggingface.co/transformers/main_classes/tokenizer.html
并找到了convert_ids_to_tokens函数,它的工作原理如下
encoded = bert_tokenizer.encode('граммов сверху')
bert_tokenizer.convert_ids_to_tokens(encoded)
->
['[CLS]', 'граммов', 'сверху', '[SEP]']但我不知道如何使用原始字符串和应力索引来计算令牌的应力位置号。
发布于 2020-05-28 13:21:15
原来,令牌器有return_offsets_mapping param,这解决了我的问题。
https://stackoverflow.com/questions/61821515
复制相似问题