我正在使用一个由嵌入层和LSTM组成的模型来执行序列标记,在py电筒+ torchtext中。我已经把句子标记出来了。
如果我使用自我训练或其他预先训练过的字嵌入向量,这是很简单的。
但是,如果我使用Huggingface BertTokenizer.from_pretrained和BertModel.from_pretrained,则在句子的开头和结尾分别添加了'[CLS]'和'[SEP]'令牌。因此,模型的输出变成比标签/目标序列长两个元素的序列。
我不确定的是:
BertModel是否需要这两个标记来嵌入句子的每个标记“正确”?发布于 2020-05-10 20:55:46
BertModel需要它们,因为如果没有添加这些特殊符号,输出表示就会有所不同。然而,我的经验表明,如果您在没有添加BertModel标记和[SEP]令牌的情况下对标签任务进行微调,那么您可能不会看到明显的差别。如果使用BertModel提取固定的单词功能,那么最好添加这些特殊符号。我建议使用BERT来查看一些序列标记或标记示例,以便对您的建模决策有信心。您可以通过使用Huggingface 这里找到新的标签示例。
https://stackoverflow.com/questions/61717097
复制相似问题