我有一个宠物项目来计算历史上一个重要人物的出生年份。
在那段时间里,我收集了很多关于其他类似情况的人的数据。我有教育年限、结婚年限、生育年数、兄弟姐妹和每个孩子的年龄差异、婚姻等数据。
这个人的年龄在两岁之间有争议,一岁使人很老,另一岁使人年轻。我想让人的年龄倒退。我的第一个想法是把高斯人画在每个变量上,看看其中一个变量比另一个变量更有可能是离群点。
你会用什么方法解决这个问题?
发布于 2016-07-18 04:07:44
似乎你有一个经典的贝叶斯问题。你有某种先验分布,一种出生年份的分布,你的先验分布是双峰分布,在这两年里,你可能可以用两个正态分布的卷积来模拟这个变量。然后,在你输入一些数据之后,让它吐出一个后向分布。
这个分析的真正问题是,您的特性似乎不是很好。的确,这些家庭可能有关于出生年份的信息,例如在20世纪,第一次婚姻的平均年龄一直在稳步增长。但我怀疑信号会相当微弱。基本上,如果我告诉你我24岁结婚,26岁生了第一个孩子,我哥哥比我大3岁,妹妹比我小2岁,你能告诉我我是在哪一年出生的吗,1956年还是1989年?
我怀疑,如果没有额外的数据,我提供的这些信息将是完全无用的,主要是因为它是一个非常嘈杂的信号。这些信息可以同样适用于1956年或1989年出生的人。这不是很有帮助。
本质上,我的意思是,当你更新你的上级,它不会有太大的变化。(您的后验分布看起来非常类似于先前的分布。)我认为,一个更有成效的练习应该是想出一些更好的特征,而不是在解决这个问题的正确算法上做一些胡须旋转。
https://datascience.stackexchange.com/questions/12820
复制相似问题