既然像Sense2Vec这样的嵌入系统包含了词性等语言特征,为什么这些嵌入不是更常用的呢?
纵观当今自然语言处理中的流行工作,Word2Vec和GloVe是最常用的词嵌入系统。尽管它们只包含单词信息,并且不具有单词的语言特征。
例如,在情感分析、文本分类或机器翻译任务中,如果输入也包含语言特征,则性能可以提高,这是合乎逻辑的。尤其是在消除动词“鸭子”和名词“鸭子”等词的歧义时。
这种想法有缺陷吗?或者还有其他一些实际原因,为什么这些嵌入没有得到更广泛的使用。
发布于 2019-05-31 23:29:14
这是一个非常主观的问题。其中一个原因是pos-tagger本身。Pos-tagger是一个概率模型,它可能会增加整体的错误/混乱。
例如。假设你有密集的duck-NP和duck-VB表示,但在运行/推理期间,你的pos-tagger标签‘’是其他东西,那么你甚至找不到它。此外,它还有效地减少了系统看到单词duck的总次数,因此有人可能会认为生成的表示将是弱的。
最重要的是,sense2vec正在解决的主要问题是单词表示的语境化,这已经通过BERT和ElMo等上下文表示解决了,而没有产生任何上述问题。
https://stackoverflow.com/questions/56388012
复制相似问题