首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >ELKI数据生成器和异常值

ELKI数据生成器和异常值
EN

Stack Overflow用户
提问于 2015-07-16 21:35:26
回答 1查看 450关注 0票数 1

我想为LOF做一个测试,展示它如何管理数据集的密集-稀疏问题。在ELKI数据生成器的教程中,我展示了如何从一个xml文件中创建一个数据集,像这样有4个集群:

代码语言:javascript
复制
<dataset random-seed="1" test-model="1">
<cluster name="Dense" size="290">
<normal mean="0.5" stddev="0.2"/>
<normal mean="0.5" stddev="0.2"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Sparse" size="100">
<normal mean="0.25" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Middle" size="100">
<normal mean="0.75" stddev="0.05"/>
<normal mean="0.75" stddev="0.05"/>
<clip min="0 0" max="1 1"/>
</cluster>

<cluster name="Noise" size="10" density-correction="50">
<uniform min="0" max="1"/>
<uniform min="0" max="1"/>
</cluster>
</dataset>

但是我如何控制异常值呢?ELKI工具需要异常值的少数标签来显示ROCAUC曲线。我从xml文件中得到的文件只是一个数据集中的点文件。

然后,我是否应该自己绘制一个图并识别异常值,并在所有这些异常值后面加上一个是或否,以说明它们是否是异常值,并将少数标签设置为是,是异常值,还是有更简单的方法?

EN

回答 1

Stack Overflow用户

发布于 2015-07-17 19:49:36

ELKI将默认使用最小的类进行评估。(您可以以不同的方式配置评估!)

如果异常值超过数据的5%,ELKI将发出警告,因为假设异常值很少(实际上,它们应该远远低于5% )。

因此,在你的数据集上,ELKI应该默认使用"Noise“作为异常值类。

在您的配置中,Noise应该是数据集的2%,所以它不应该发出警告。它应该开箱即用。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/31455764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档