我刚开始机器学习,但我有一个有趣的问题。我有一个很大的样本的人和访问的网站。有些人指出了性别、年龄和其他参数。现在,我希望将这些参数还原给每个用户。
我要找哪条路?哪种算法适合解决这个问题?我熟悉神经网络(监督学习),但它们似乎不适合。
发布于 2014-06-27 07:06:14
我也遇到了同样的问题:“恢复”社交网络用户的年龄、性别和位置。但我使用的是用户的自我网络,而不是访问网站的统计数据。我面临着两个几乎独立的任务:
这种方法不会填补所有的空白,而只是可预测的差距。
发布于 2014-06-26 14:17:44
填补数据上的空白存在许多可能性。
还有许多其他的,但这些是最常见的策略。我的建议是不让人知道什么是未知的。
发布于 2014-06-27 19:18:11
虽然adesantos已经给出了一个很好的答案,但我想补充一些背景信息。
你所看到的问题的名称是“归罪”。正如adesantos已经说过的那样,其中一种可能是适合一个分布。例如,您可以对数据进行多变量高斯拟合。你只会从你所知道的样本中得到平均值,而你只从你知道的样本中计算协方差。然后,您可以使用标准的MVG结果来线性地计算丢失的数据。
这可能是最简单的概率计算方法,而且已经相当复杂了。如果你是一个神经网络,最近提出的一种方法就是Rezende等人提出的深潜高斯模型。然而,了解该方法需要大量的神经网络知识,相当多的关于马尔可夫链的变分Bayes知识。
我听说过的另一种方法是训练一个生成的随机网络(Bengio等人)。这是通过对你拥有的数据进行去噪自动编码器的训练来完成的(忽略重建损失中的缺失值)。假设你有一个重建函数f和一个输入x,然后通过x‘= f(x)重建它。然后,将x‘的值重置为您从x中知道的值。(也就是说,您只保留重建之前丢失的值。)如果您这样做了很多次,那么您将保证从给定的值的分布中取样。
但无论是哪种情况,这些方法都需要相当多的统计知识和神经网络知识。
https://datascience.stackexchange.com/questions/595
复制相似问题