问具有组特定和个人特定数据的XGboost
EN

Data Science用户

提问于 2021-05-23 18:03:00

回答 1查看 25关注 0票数 1

我的数据集由两个数据库组成。一个数据库包含关于美国大公司前五名高管的特征和薪酬的个人级别数据。第二个数据库由关于这些高管的公司的资产负债表信息组成。我从第一个数据库中使用了4个具体的变量(例如执行年龄)，从第二个数据库中使用了大约15到20个特定于公司的变量(例如公司总利润)。这意味着，对于同一家公司的高管来说，只有4个变量是特定高管的唯一变量，所有公司特定变量对所有5名高管来说都是完全相同的。我想使用XGboost来预测高管薪酬，使用这些特定于个人和公司的变量。是否可以使用同一家公司的5名高管，或者每家公司只使用1名高管(CEO)？这将使样本数量从8926个减少到1703个，但它将确保我所有的观测结果都是真正的“独特”。非常感谢!

xgboost

machine-learning

python

dataset

回答 1

Data Science用户

发布于 2021-05-23 19:13:02

如果您认为所有主管的薪酬由相同的功能管理，则可以使用他们。也就是说，所有的事情都是平等的，你期望所有的高管都有同等的报酬。如果不是，也许您应该添加一个功能来告诉每个高管(CEO、CFO.)的功能。无论如何，对于多个示例来说，部分特性是相同的，这并不是一个问题。

这将是一个问题，如果你有很多的例子，从一个公司，你正在寻找一个模式，适用于所有公司。如果你用了一家公司的大量例子，你的模式会偏向于那家公司的薪酬，但既然你有5家公司的话，我看不出问题所在。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/94808

复制

相似问题

问具有组特定和个人特定数据的XGboost
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有组特定和个人特定数据的XGboostEN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问具有组特定和个人特定数据的XGboost
EN