我有一个包含许多特性的数据集。每张唱片都是一家有很多特色的公司。
例如..。
A公司:
我想要在多家公司之间创建一个相似性度量,包括在关键字列表上训练的doc2vec嵌入以及列出的附加特性。我很难找到这样做的文件。有什么想法吗?
发布于 2018-09-28 16:09:57
如果您将一条记录视为查询,而“接近”记录作为搜索结果,则可以将您的相似性度量视为搜索问题。
我在下面的文章中取得了一些很好的结果:https://arxiv.org/pdf/1602.01137.pdf
据我所知,文件中使用的文档向量只有利于提高搜索结果与已经不错的结果的相关性(前N项结果)。
对我来说,这意味着您可能尝试先开发一个与其他属性一起工作的相似性评分,然后做一些类似于加权平均值的操作,在第一个度量的基础上,doc2vec评分的重要性会迅速下降。
https://datascience.stackexchange.com/questions/38884
复制相似问题