我在Quora上读到了一个答案,其中一位NLP从业者说,使用ELMO和BERT嵌入作为LSTM或某些RNN的输入将违背ELMo和BERT的目的。我不同意上述说法。
通常,我们将单词传递给LSTM,以获得特定上下文的表达,我知道这一点。但是,我们传递的是word2vec而不是单一热点,因为处理后的上下文表示会更好。同样,常识指出,如果我们将ELMO或BERT词嵌入到LSTM,它应该输出比word2vec更多的上下文丰富的单词。我说得对吧?
我知道,一旦获得了上下文,我们就可以立即对其进行微调,以完成一些下游任务。但是为什么不以这种方式将ELMo和BERT的上下文嵌入传递给LSTM呢?
疑点2:
我看到了一篇文章,作者在文章中使用了ELMo嵌入,每个单词的平均向量用于logistic回归和基于树的模型。虽然这对他们有效,但总的来说,这是没有意义的?因为,在Logistic回归中,每个参数都固定在输入中。比如,泰塔1*X1。因此,如果X1每次都是不同的词,那么与我们为每个单词都有固定索引的TFIDF相比,修复该参数对模型来说应该更加混乱吗?
发布于 2023-04-07 01:36:31
疑点1:
正确的是,使用ELMo或BERT嵌入作为LSTM的输入可能会导致比使用Word2Vec更好的上下文表示。然而,NLP从业者可能反对在LSTM中使用ELMo或BERT的原因是,这些模型已经被设计为以比LSTM更高级的方式捕获上下文。
ELMo使用双向LSTM架构,允许它更好地捕捉句子中一个单词的上下文。伯特,另一方面,使用变压器架构,它使用自我关注机制,以更复杂的方式理解上下文。
当您将ELMo或BERT嵌入用作LSTM或另一个RNN的输入时,您可能会丢失这些模型已经捕获的一些上下文信息。相反,它将是更有效的微调的ELMo或伯特模型直接为您的下游任务,因为他们是专门为这个目的而设计的,并已证明,以达到最先进的性能。
疑点2:
对于logistic回归和基于树的模型,使用带平均向量的ELMo嵌入可能并不理想,但在一定程度上仍然可以工作。在句子中对单词的嵌入进行平均处理可以捕捉到一些语义信息,尽管它很可能会丢失大量的上下文信息。
在logistic回归的情况下,模型确实将学习将特定的权重与每个输入特性相关联。然而,这些特征不再与固定的词相对应,因为它们将与一袋袋单词或TF-国防军代表相对应.相反,这些特性表示连续值嵌入,捕捉词之间的语义关系.因此,logistic回归模型将学习将权重与ELMo嵌入捕获的语义关系相关联,而不是单个单词。
这种方法可能不像使用更高级的模型,如BERT或微调ELMo模型本身那样有效,但它仍然可以提供一些改进,而不是传统的单词包或TF-国防军表示,特别是在处理从语义信息中受益的任务时。
https://datascience.stackexchange.com/questions/120642
复制相似问题