我在这里找到了一个为定制句子生成上下文化单词嵌入的很好的教程:http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/
然而,它没有告诉我如何在更大的段落上训练它。我有大约1000个令牌,我想让模型学习。我如何调整链接的代码并将其应用于整个段落,以便每个单词都能从整个文档中学习上下文?
发布于 2020-10-05 11:41:39
链接到的教程当前使用Huggingface Transformers。据作者说,their BERT model is limited to 512 tokens。如果你想处理更长的句子,你需要从头开始训练你自己的BERT。
注意,一般来说,为长文档获得良好的嵌入仍然是一个活跃的研究领域,仅仅通过更改配置文件中的一些数字是不会得到好的结果的。
https://stackoverflow.com/questions/64201751
复制相似问题