文章/答案/技术大牛

发布

社区首页 >问答首页 >对ELMO，BERT，Word2Vec的怀疑

问对ELMO，BERT，Word2Vec的怀疑
EN

Data Science用户

提问于 2023-04-02 09:12:27

回答 1查看 49关注 0票数 0

我在Quora上读到了一个答案，其中一位NLP从业者说，使用ELMO和BERT嵌入作为LSTM或某些RNN的输入将违背ELMo和BERT的目的。我不同意上述说法。

通常，我们将单词传递给LSTM，以获得特定上下文的表达，我知道这一点。但是，我们传递的是word2vec而不是单一热点，因为处理后的上下文表示会更好。同样，常识指出，如果我们将ELMO或BERT词嵌入到LSTM，它应该输出比word2vec更多的上下文丰富的单词。我说得对吧？

我知道，一旦获得了上下文，我们就可以立即对其进行微调，以完成一些下游任务。但是为什么不以这种方式将ELMo和BERT的上下文嵌入传递给LSTM呢？

疑点2：

我看到了一篇文章，作者在文章中使用了ELMo嵌入，每个单词的平均向量用于logistic回归和基于树的模型。虽然这对他们有效，但总的来说，这是没有意义的？因为，在Logistic回归中，每个参数都固定在输入中。比如，泰塔1*X1。因此，如果X1每次都是不同的词，那么与我们为每个单词都有固定索引的TFIDF相比，修复该参数对模型来说应该更加混乱吗？

word-embeddings

bert

machine-learning

nlp

lstm

回答 1

Data Science用户

发布于 2023-04-07 01:36:31

疑点1：

正确的是，使用ELMo或BERT嵌入作为LSTM的输入可能会导致比使用Word2Vec更好的上下文表示。然而，NLP从业者可能反对在LSTM中使用ELMo或BERT的原因是，这些模型已经被设计为以比LSTM更高级的方式捕获上下文。

ELMo使用双向LSTM架构，允许它更好地捕捉句子中一个单词的上下文。伯特，另一方面，使用变压器架构，它使用自我关注机制，以更复杂的方式理解上下文。

当您将ELMo或BERT嵌入用作LSTM或另一个RNN的输入时，您可能会丢失这些模型已经捕获的一些上下文信息。相反，它将是更有效的微调的ELMo或伯特模型直接为您的下游任务，因为他们是专门为这个目的而设计的，并已证明，以达到最先进的性能。

疑点2：

对于logistic回归和基于树的模型，使用带平均向量的ELMo嵌入可能并不理想，但在一定程度上仍然可以工作。在句子中对单词的嵌入进行平均处理可以捕捉到一些语义信息，尽管它很可能会丢失大量的上下文信息。

在logistic回归的情况下，模型确实将学习将特定的权重与每个输入特性相关联。然而，这些特征不再与固定的词相对应，因为它们将与一袋袋单词或TF-国防军代表相对应.相反，这些特性表示连续值嵌入，捕捉词之间的语义关系.因此，logistic回归模型将学习将权重与ELMo嵌入捕获的语义关系相关联，而不是单个单词。

这种方法可能不像使用更高级的模型，如BERT或微调ELMo模型本身那样有效，但它仍然可以提供一些改进，而不是传统的单词包或TF-国防军表示，特别是在处理从语义信息中受益的任务时。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/120642

复制

相似问题

问对ELMO，BERT，Word2Vec的怀疑
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对ELMO，BERT，Word2Vec的怀疑EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对ELMO，BERT，Word2Vec的怀疑
EN