首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在Sklearn Outlier Detection methods中将‘Detection’参数设置为'auto‘会做什么?

在Sklearn Outlier Detection methods中将‘Detection’参数设置为'auto‘会做什么?
EN

Stack Overflow用户
提问于 2020-07-24 20:51:53
回答 1查看 1.2K关注 0票数 3

我有一个数据集,我需要能够在多大程度上控制离群值检测模型(孤立森林,椭圆包络,OneClassSVM...)将给定点视为异常值或非异常值(类似于Z分数或IQR分数)。这意味着我不想预先指定数据集中离群点的百分比,更为人所知的是contamination参数,但我希望这个百分比取决于我希望我的模型有多“挑剔”。这是否等同于将参数contamination设置为'auto'?

关于这一点,Sci-kit Learn包是这样说的:“如果‘auto’,则阈值按照原始论文中的方式确定”。

这篇文章指的是哪篇原始论文?将contamination参数设置为'auto‘能解决我的问题吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-07-24 22:08:22

我正在看论文,但没有太多成功,但看了代码就给了我答案。注意实现的这一部分:

代码语言:javascript
复制
    if self.contamination == "auto":
        # 0.5 plays a special role as described in the original paper.
        # we take the opposite as we consider the opposite of their score.
        self.offset_ = -0.5
        return self

    # else, define offset_ wrt contamination parameter
    self.offset_ = np.percentile(self.score_samples(X),
                                 100. * self.contamination)

您可以查看完整的实现here

设置contamination='auto'时,影响模型预测的offset_值将设置为-0.5,而如果在contamination参数中使用float值,则偏移值将发生变化,以达到先前传递的污染百分比。因此,模型将根据此决定确定数据中的污染百分比。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/63073951

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档