我读过ELMo的代码。
根据我的理解,ELMo首先为所有单词插入一个单词嵌入矩阵A,然后添加LSTM B,最后使用LSTM B的S输出来预测每个单词的下一个单词。
我想知道为什么我们可以输入每个单词在词汇,并得到最后的词表示从单词嵌入矩阵A经过培训。
似乎我们丢失了B的信息。
为什么嵌入可以在语言模型中包含我们想要的信息。
为什么训练过程可以将良好的单词表示信息注入到单词嵌入矩阵A中?
发布于 2018-12-13 07:18:26
我错了。ELMo还将LSTM的输出用于上下文相关的表示.
字嵌入的输出是上下文无关的表示.
为什么表示是有用的?
我认为这是因为,它是在学习单词之间的区别,而表象并不是单词的真正意义。
https://datascience.stackexchange.com/questions/42139
复制相似问题