最近,Facebook发布了一篇关于通用神经嵌入模型( StarSpace )的论文。
在他们的纸中,他们解释了模型的损失函数和训练过程,但对模型的体系结构没有太大的重视。
有人知道后面的神经网络是什么样子吗?
发布于 2019-04-21 19:44:19
我认为,称StarSpace为神经模型可能会误导人。你当然可以把它想象成一个具有单层和线性激活函数的神经网络,但我认为这不会很有启发性。由于某种原因,他们在论文中没有过多地讨论这个体系结构--在神经元层、激活函数、潜在变量或任何其他方面,除了对维度数量的限制之外,实际上没有任何东西。
事实上,考虑StarSpace最有用的方法是,它的核心是它的核心--就像许多(可能是最流行的)跨自然语言、图等的嵌入技术一样,它是一种低秩矩阵因式分解。抽样程序所做的就是以某种方式利用数据生成正定的克矩阵。但是,如果您要找到每个输入/目标对的期望,那么您会发现,优化的目标是最大限度地提高对项目的联合分布的向量相似度的期望值,减去边际分布(这是由于负样本造成的)。本质上,我们的目标是最大限度地扩大经常抽样的项目之间的相似性,以及与边缘分布无关的抽样项目之间的相似性。
如果这听起来很熟悉SGNS隐式分解一个移位的PPMI矩阵或GlOVe显式分解一个轻松的变体相同,很好。细节是不同的,StarSpace在它所使用的抽样分布方面有很大的灵活性,但是原理是相同的。如果我没记错的话,“神经词嵌入作为隐式矩阵分解”和“用从嵌入词中吸取的经验来改进分布相似性”是Levy 2014年和2015年的精彩论文,讨论了神经嵌入和显式矩阵分解技术(如PPMI-SVD和手套)之间的联系,以及使它们成功的原则。
类似地,“网络嵌入作为矩阵分解:将DeepWalk、LINE、PTE和node2vec统一起来”是对神经网络嵌入和与神经词嵌入相同的隐含目标之间的联系的讨论。
简而言之,这听起来并不像StarSpace中有太多的事情发生在架构上,因为没有,它实际上是在调整嵌入空间中的点的位置,以使关联的项比不相关的项更相似。
https://datascience.stackexchange.com/questions/41376
复制相似问题