首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >预测出生年龄

预测出生年龄
EN

Data Science用户
提问于 2016-07-16 19:40:02
回答 1查看 159关注 0票数 2

我有一个宠物项目来计算历史上一个重要人物的出生年份。

在那段时间里,我收集了很多关于其他类似情况的人的数据。我有教育年限、结婚年限、生育年数、兄弟姐妹和每个孩子的年龄差异、婚姻等数据。

这个人的年龄在两岁之间有争议,一岁使人很老,另一岁使人年轻。我想让人的年龄倒退。我的第一个想法是把高斯人画在每个变量上,看看其中一个变量比另一个变量更有可能是离群点。

你会用什么方法解决这个问题?

EN

回答 1

Data Science用户

回答已采纳

发布于 2016-07-18 04:07:44

似乎你有一个经典的贝叶斯问题。你有某种先验分布,一种出生年份的分布,你的先验分布是双峰分布,在这两年里,你可能可以用两个正态分布的卷积来模拟这个变量。然后,在你输入一些数据之后,让它吐出一个后向分布。

这个分析的真正问题是,您的特性似乎不是很好。的确,这些家庭可能有关于出生年份的信息,例如在20世纪,第一次婚姻的平均年龄一直在稳步增长。但我怀疑信号会相当微弱。基本上,如果我告诉你我24岁结婚,26岁生了第一个孩子,我哥哥比我大3岁,妹妹比我小2岁,你能告诉我我是在哪一年出生的吗,1956年还是1989年?

我怀疑,如果没有额外的数据,我提供的这些信息将是完全无用的,主要是因为它是一个非常嘈杂的信号。这些信息可以同样适用于1956年或1989年出生的人。这不是很有帮助。

本质上,我的意思是,当你更新你的上级,它不会有太大的变化。(您的后验分布看起来非常类似于先前的分布。)我认为,一个更有成效的练习应该是想出一些更好的特征,而不是在解决这个问题的正确算法上做一些胡须旋转。

票数 4
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/12820

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档