我的问题是如何对模型进行适当的培训,以便对Word2Vec模型进行独特和具体的使用。请参阅此处的Word2Vec详细信息
我的工作是识别名词-形容词(或)关系的词嵌入。
例如,在数据集的一句话中,我们有“漂亮的汽车”。考虑到语料库的嵌入词以及所有的名词和形容词都有标签,我正在设计一种技术来找到连接“尼斯”和“汽车”的正确向量。)
当然,我并不是只想把这一对词联系起来,但是这种技巧应该适用于所有的关系。此时采用有监督的方法,然后尝试设计一种无监督的方法。
既然你明白了我想做什么,我就会解释这个问题。我显然知道,需要对word2vec进行大量数据培训,以便尽可能准确地学习正确的嵌入,但我害怕给它的数据比带有标签语句的数据集(500-700)更多。
我担心如果我给它更多的数据来训练(例如,最新的维基百科转储数据集),它会学到更好的向量,但是额外的数据会影响我的单词的位置,那么这个词的关系就会被额外的训练数据所偏见。(例如,如果额外的培训数据中也有“好苹果”,那么“好”这个词的定位就会受到影响)。
希望这是有意义的,我没有做出错误的假设,但我只是陷入了一个两难的境地:因为没有足够的训练数据,或者有好的向量,但是嵌入词中的向量位置受到了损害。
训练的正确方法是什么?尽可能多的训练数据(数十亿字)还是仅仅标注数据集(500-700句)?
谢谢你抽出时间,如果我解释的没有意义的话,请告诉我。
发布于 2017-05-24 11:04:27
在类似的情况下最好检查一下..。
我想知道你是否测试了标签数据集结果与维基百科数据集之间的培训差异。你真的有害怕看到的问题吗?
我只需要做一个实验,检查两种情况下的向量是否确实不同(从统计学上讲)。
我怀疑你可能会引入一些噪音较大的语料库,但更多的数据可能是有益的wrt。词汇表覆盖范围(更大的语料库-更普遍)。这取决于您期望的用例。这很可能是一个折衷的高精度与非常低的召回与所以精度相对较好的召回。
https://stackoverflow.com/questions/44150201
复制相似问题