我正在为NLP任务建立TensorFlow模型,并使用预先训练过的GLOW300d字向量/嵌入数据集。
显然,一些标记不能被解析为嵌入,因为没有包含在训练数据集中的词向量嵌入模型,例如稀有名称。
我可以用0的向量替换那些标记,但是我不想把这些信息丢在地板上,我更愿意对它进行编码,并将其包含到我的训练数据中。
比如说,我有“raijin”这个词,它不能作为嵌入向量来解析,那么如何才能最好地将它与Glove嵌入数据集进行一致编码呢?将其转换为300 d矢量的最佳方法是什么?
谢谢。
发布于 2017-08-04 01:20:48
与其将所有的Out of Vocabulary标记分配给公共的UNK向量(零),不如给它们分配一个唯一的随机向量。至少这样,当你发现他们和其他单词的相似之处时,他们中的每一个都将是独一无二的,并且模型可以从中学到一些东西。在UNK case中,它们都是相同的,因此所有UNK单词都将被视为具有相同的上下文。
我尝试了这种方法,并使用Quora Duplicate question pair detection模型对LSTM数据集进行了3%的精度改进。
https://stackoverflow.com/questions/45495190
复制相似问题