我是数据科学的新手,我试图从很长一段时间内理解'Word2Vec‘的方法。有人能简单地解释一下吗?此外,通过“Word2Vec”方法可以解决哪些问题?
发布于 2017-08-30 10:43:56
Word2Vec是一种字嵌入技术的实现。
单词嵌入试图表示单个单词(包含在处理文本中的单词)之间可能存在的关系,方法是为每个单词提供一个具有相同预定义维度的向量。在此向量空间中,具有共同上下文的单词可能位于较近的位置。如何将单词赋值到向量空间?这项工作经常是通过神经网络训练来完成的。
Word2Vec (或word嵌入)解决的主要问题是,它创建了一种方法来表示处理文本中的单词之间的关系,而不是仅仅将单词视为单独的符号。这使得后续的数据挖掘或机器学习更加有效。
除了Word2Vec,您还可以使用许多其他预先训练过的嵌入,如GloVe。如果数据集很大,最好是训练您自己的单词嵌入,这将获得一个更好的性能比使用预先培训的嵌入。
https://datascience.stackexchange.com/questions/22699
复制相似问题