首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >词汇外初始化(OOV)标记

词汇外初始化(OOV)标记
EN

Stack Overflow用户
提问于 2017-08-03 21:58:11
回答 1查看 6.8K关注 0票数 3

我正在为NLP任务建立TensorFlow模型,并使用预先训练过的GLOW300d字向量/嵌入数据集。

显然,一些标记不能被解析为嵌入,因为没有包含在训练数据集中的词向量嵌入模型,例如稀有名称。

我可以用0的向量替换那些标记,但是我不想把这些信息丢在地板上,我更愿意对它进行编码,并将其包含到我的训练数据中。

比如说,我有“raijin”这个词,它不能作为嵌入向量来解析,那么如何才能最好地将它与Glove嵌入数据集进行一致编码呢?将其转换为300 d矢量的最佳方法是什么?

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-08-04 01:20:48

与其将所有的Out of Vocabulary标记分配给公共的UNK向量(零),不如给它们分配一个唯一的随机向量。至少这样,当你发现他们和其他单词的相似之处时,他们中的每一个都将是独一无二的,并且模型可以从中学到一些东西。在UNK case中,它们都是相同的,因此所有UNK单词都将被视为具有相同的上下文。

我尝试了这种方法,并使用Quora Duplicate question pair detection模型对LSTM数据集进行了3%的精度改进。

票数 12
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/45495190

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档