文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用BERT训练大块自定义文本中的单词嵌入？

问如何使用BERT训练大块自定义文本中的单词嵌入？
EN

Stack Overflow用户

提问于 2020-10-05 10:28:01

回答 1查看 218关注 0票数 0

我在这里找到了一个为定制句子生成上下文化单词嵌入的很好的教程：http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/

然而，它没有告诉我如何在更大的段落上训练它。我有大约1000个令牌，我想让模型学习。我如何调整链接的代码并将其应用于整个段落，以便每个单词都能从整个文档中学习上下文？

发布于 2020-10-05 11:41:39

链接到的教程当前使用Huggingface Transformers。据作者说，their BERT model is limited to 512 tokens。如果你想处理更长的句子，你需要从头开始训练你自己的BERT。

注意，一般来说，为长文档获得良好的嵌入仍然是一个活跃的研究领域，仅仅通过更改配置文件中的一些数字是不会得到好的结果的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64201751

复制

相似问题

问如何使用BERT训练大块自定义文本中的单词嵌入？EN