我有一个数据集,我需要能够在多大程度上控制离群值检测模型(孤立森林,椭圆包络,OneClassSVM...)将给定点视为异常值或非异常值(类似于Z分数或IQR分数)。这意味着我不想预先指定数据集中离群点的百分比,更为人所知的是contamination参数,但我希望这个百分比取决于我希望我的模型有多“挑剔”。这是否等同于将参数contamination设置为'auto'?
关于这一点,Sci-kit Learn包是这样说的:“如果‘auto’,则阈值按照原始论文中的方式确定”。
这篇文章指的是哪篇原始论文?将contamination参数设置为'auto‘能解决我的问题吗?
发布于 2020-07-24 22:08:22
我正在看论文,但没有太多成功,但看了代码就给了我答案。注意实现的这一部分:
if self.contamination == "auto":
# 0.5 plays a special role as described in the original paper.
# we take the opposite as we consider the opposite of their score.
self.offset_ = -0.5
return self
# else, define offset_ wrt contamination parameter
self.offset_ = np.percentile(self.score_samples(X),
100. * self.contamination)您可以查看完整的实现here。
设置contamination='auto'时,影响模型预测的offset_值将设置为-0.5,而如果在contamination参数中使用float值,则偏移值将发生变化,以达到先前传递的污染百分比。因此,模型将根据此决定确定数据中的污染百分比。
https://stackoverflow.com/questions/63073951
复制相似问题