首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >微调手套嵌入

微调手套嵌入
EN

Stack Overflow用户
提问于 2018-06-18 12:38:34
回答 2查看 3K关注 0票数 3

有没有人试图微调手套嵌入在特定领域的语料库?

在各种NLP任务中,微调word2vec嵌入已经被证明是非常有效的,但是我想知道是否在我的特定领域的语料库上生成一个共生矩阵,以及在该语料库上训练手套嵌入(用经过预先训练的嵌入初始化)是否会产生类似的改进。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2019-04-18 09:20:36

我自己也在努力做同样的事情。你可以试试丝指

他们成功地为它建立了一个框架。克里斯托弗·D·曼宁(GloVe的合著者)与此有关。

票数 3
EN

Stack Overflow用户

发布于 2021-09-01 09:23:20

word2vecGlove是一种用于生成单词嵌入的技术,即将文本(一组句子)建模到计算机可读向量中。

word2vec对本地上下文(相邻词)进行训练时,Glove会在整个文本或语料库中寻找词的同现,但它的方法更具有全球性。

word2vec

对于word2vec,有两种主要的方法,其中算法循环遍历句子的世界。对于当前的每个单词w,它将尝试预测

  • 来自w的相邻单词及其上下文,这是Skip-Gram方法
  • w从它的上下文来看,这是CBOW方法

因此,word2vec会对上下文相似的单词产生类似的嵌入,例如单数和复数的名词,或者两个同义词。

手套

Glove模型背后的主要直觉是简单的观察,即单词和词的共现概率的比率有可能编码某种形式的意义。换句话说,嵌入是基于对目标词之间距离的计算。该模型通过分析两个目标词与其他探测词(上下文词)的共现关系来计算文本中两个目标词之间的距离。

https://nlp.stanford.edu/projects/glove/

例如,考虑目标词“冰”和“蒸汽”与词汇中各种探测词的共现概率。以下是来自60亿字语料库的一些实际概率:

正如人们所预料的那样,“冰”与“固体”的共同发生比与“气体”发生的频率更高,而“蒸汽”与“气体”发生的频率比与“固体”的共同发生的频率更高。这两个词经常与它们的共有财产“水”同时出现,而与不相关的词“时尚”也很少同时出现。只有在概率比中,“水”和“时尚”这样的非歧视性词汇的噪音才会抵消,因此大值(远远大于1)与“冰”特有的属性有很好的关联,而小值(远小于1)与“蒸汽”的特性有很好的关联。通过这种方法,概率比可以表示与热力学相抽象概念相关联的某种粗糙的意义形式。

而且,Glove非常擅长类比,并且在word2vec数据集上表现良好。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50909726

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档