我的目标是建立一个分类模型,以预测一个客户是否会购买一个产品(二进制分类)。
因为在过去的几个月里(比方说3-4),我知道公司的广告发生了一些变化,所以我想把重点放在更新的记录上。
我知道在大多数分类算法中可以指定sample_weights参数,但我不知道如何正确地构建这些权重。
基本上,我有客户已经(或没有)购买该产品的日期,但我想了解是否有一种特定的方法来使用这些信息来构建权重。
此外,我也知道是否有人知道这个应用程序的一些参考或应用(时间相关的抽样权重)。
提前谢谢你!
发布于 2022-07-06 09:52:03
如果你想为你的数据点定义权重,你可以用一个简单的公式计算它们,这个公式的形状是正确的。让你的权重是数据点年龄的函数,然后选择你想要用线性或指数函数来建模它们的相对阻抗。
它可以很简单,如:
这样你的数据就会有十天的半衰期。
发布于 2021-01-10 14:29:44
一种选择是增量训练。根据更多最新数据更新模型权重。这自动赋予最近的记录更重要的意义。
增量培训在贝叶斯框架内很好地工作,其中历史数据是先验数据,而较新的数据则更新了先验数据。
https://datascience.stackexchange.com/questions/78535
复制相似问题