例如,我正在构建一个模型来预测Spotify的客户流失事件,我的目标是客户是否在接下来的90天内流失。
我可能期望的一个功能可以预测这一事件的发生是客户在线检查他们的账单-所以我可能会在每个培训日期为每个客户设计功能来编码他们检查帐单的次数的信息。
例如,我可能会创建一个功能CHECKBILL_CNT_0_10,它是统计该客户在过去10天内检查在线账单的次数,其中许多功能跨越不同的时间范围。
我看到了两种不同的数据科学家是如何做到这一点的:
这两个选项在技术上都编码相同的信息;但是,我想知道这些选项中的一个是否比另一个具有优势呢?我倾向于认为选项2更好,因为这些特性的相关性较小,因此模型可能更容易学习,但这是推测性的。
发布于 2020-10-29 06:54:17
您可能想尝试这两个选项,看看哪个更好。我认为特性工程更像是一个反复试验(迭代)的过程。
https://datascience.stackexchange.com/questions/84633
复制相似问题