有没有人试图微调手套嵌入在特定领域的语料库?
在各种NLP任务中,微调word2vec嵌入已经被证明是非常有效的,但是我想知道是否在我的特定领域的语料库上生成一个共生矩阵,以及在该语料库上训练手套嵌入(用经过预先训练的嵌入初始化)是否会产生类似的改进。
发布于 2019-04-18 09:20:36
我自己也在努力做同样的事情。你可以试试丝指。
他们成功地为它建立了一个框架。克里斯托弗·D·曼宁(GloVe的合著者)与此有关。
发布于 2021-09-01 09:23:20
word2vec和Glove是一种用于生成单词嵌入的技术,即将文本(一组句子)建模到计算机可读向量中。
当word2vec对本地上下文(相邻词)进行训练时,Glove会在整个文本或语料库中寻找词的同现,但它的方法更具有全球性。
word2vec
对于word2vec,有两种主要的方法,其中算法循环遍历句子的世界。对于当前的每个单词w,它将尝试预测
w的相邻单词及其上下文,这是Skip-Gram方法w从它的上下文来看,这是CBOW方法因此,word2vec会对上下文相似的单词产生类似的嵌入,例如单数和复数的名词,或者两个同义词。
手套
Glove模型背后的主要直觉是简单的观察,即单词和词的共现概率的比率有可能编码某种形式的意义。换句话说,嵌入是基于对目标词之间距离的计算。该模型通过分析两个目标词与其他探测词(上下文词)的共现关系来计算文本中两个目标词之间的距离。
https://nlp.stanford.edu/projects/glove/
例如,考虑目标词“冰”和“蒸汽”与词汇中各种探测词的共现概率。以下是来自60亿字语料库的一些实际概率:

正如人们所预料的那样,“冰”与“固体”的共同发生比与“气体”发生的频率更高,而“蒸汽”与“气体”发生的频率比与“固体”的共同发生的频率更高。这两个词经常与它们的共有财产“水”同时出现,而与不相关的词“时尚”也很少同时出现。只有在概率比中,“水”和“时尚”这样的非歧视性词汇的噪音才会抵消,因此大值(远远大于1)与“冰”特有的属性有很好的关联,而小值(远小于1)与“蒸汽”的特性有很好的关联。通过这种方法,概率比可以表示与热力学相抽象概念相关联的某种粗糙的意义形式。
而且,Glove非常擅长类比,并且在word2vec数据集上表现良好。
https://stackoverflow.com/questions/50909726
复制相似问题