我面临的问题是,我希望匹配彼此相似的属性(房屋/公寓等)(例如经度和纬度(数字)、卧室(数字)、地区(类别)、条件(分类)等)。使用深度学习。数据是异构的,因为我们混合了数字和分类数据,而问题是无监督的,因为我们没有使用任何标签。
我的目标是获得属性相似性的度量,这样我就可以为每个目标属性找到最匹配的属性。我可以使用KNN,但我想使用一些可以让我找到嵌入并使用深度学习的东西。
我想我可以确定一个混合距离度量,比如Gower距离作为损失函数,但是我如何建立一个模型来确定,比如说,我的样本中每个目标属性的前10个匹配?
任何帮助或指向类似问题集(Kaggle,notebooks,github)的人都将不胜感激。
谢谢
发布于 2019-10-25 20:31:18
考虑到您需要无监督的方法,您可以尝试使用自动编码器。我发现变分自动编码器(VAE)对解决其他问题非常有效。学习的嵌入应该在一定程度上考虑输入空间中的距离,但如果希望以特定方式分隔示例,则可能需要稍微修改损失函数。
要得到前k个,你只需对每个示例进行编码,计算一个距离矩阵,然后在每行(或列)中取前k。
我在Pytorch:here中有一个VAE(和其他)的实现供你参考,显然你需要一个不同的网络架构来处理分类方面等。
希望这能有所帮助!
https://stackoverflow.com/questions/58558378
复制相似问题