首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何使用BERT训练大块自定义文本中的单词嵌入?

如何使用BERT训练大块自定义文本中的单词嵌入?
EN

Stack Overflow用户
提问于 2020-10-05 10:28:01
回答 1查看 218关注 0票数 0

我在这里找到了一个为定制句子生成上下文化单词嵌入的很好的教程:http://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/

然而,它没有告诉我如何在更大的段落上训练它。我有大约1000个令牌,我想让模型学习。我如何调整链接的代码并将其应用于整个段落,以便每个单词都能从整个文档中学习上下文?

EN

回答 1

Stack Overflow用户

发布于 2020-10-05 11:41:39

链接到的教程当前使用Huggingface Transformers。据作者说,their BERT model is limited to 512 tokens。如果你想处理更长的句子,你需要从头开始训练你自己的BERT。

注意,一般来说,为长文档获得良好的嵌入仍然是一个活跃的研究领域,仅仅通过更改配置文件中的一些数字是不会得到好的结果的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64201751

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档