我正在尝试将SMOTE应用于具有时间限制的数据集。我有关于用户访问一个网站的信息。对于某些特性,有时间限制,例如第一次访问和最后一次访问网站,第一次访问(时间戳)总是低于或等于上次访问。如果我申请SMOTE(或SMOTENC的分类),我最终有合成样本,最后一次访问发生在第一次访问之前。这导致了一个在现实世界中不存在的样本,因此可能会对模型的性能产生负面影响。有没有一种方法可以运用打击炮和强制执行某些规则。或者,是否有过度抽样技术可以解决这一问题?
发布于 2020-11-30 15:39:28
一种选择是做一些类似于自举的事情,因为这将是重新采样现有的数据。
另一种选择是生成额外的样本,然后根据约束进行剪枝。
https://datascience.stackexchange.com/questions/54690
复制相似问题