对于许多用于基于一致性的模型选择 ( 单级分类 )的数据集,OCC的性能并不好。因此,我正在寻找一些其他的模式选择标准。
由于只有一类数据(即正类)可用,分类错误不再是一个有效的标准。OCC中最优参数的确定是一项极具挑战性的任务。这里,模型选择是指对一类分类器的最优参数选择.
除基于一致性的模型选择方法外,请提出其他方法。
发布于 2016-05-21 02:57:09
你读过詹森的论文"离群点的选择与一类分类“吗?他有一个关于评价的章节,这一章可能是有用的。你考虑过负实例的人工世代吗?
一段时间前,我不得不处理OCC评估问题,但从未想出一个完全令人满意的解决方案。我记得,基本的问题归结为一个事实,即您实际上并没有标记负类的实例。没有这些实例,就无法计算精度= TP/(TP+FP),因为它依赖于错误接受的负实例(FP)的计数。这只会让您将recall = TP/(TP + FN)作为一个可计算的度量--它本身在评估分类器性能方面几乎毫无用处--即编写一个100%召回的分类器,只需预测测试数据中每个实例的正类就可以了.您将正确地识别每个真正的正实例,但也会错误地将每个负面实例预测为一个正实例。通常需要的是余额或精确性和召回性之间的权衡。
您没有提到您正在工作的特定问题领域,但也许您可以将此领域知识作为解决OCC评估问题的工具。我将涉及的这个特殊问题在技术上被转换为一个PU学习问题(从积极的和未标记的实例中学习)。我将尝试描述我在解决这一挑战时所探索的一些解决方案--我会给您一个公平的警告,它们不是完全令人满意的解决方案,但我相信它们在逻辑上是合理的,而且有些可以辩护。从纯粹务实的角度来看,他们肯定比其他人更好。
想想看:设想一个以会员为基础的奖励计划,人们可以支付年费成为Foobar公司的成员,而不是非会员,他们有权在Foobar的零售店购买小工具。
你负责增加Foobar会员资格的营销活动。你有有限的资金和覆盖面,所以你需要仔细地从一般人群中挑选出你认为最有可能成为会员的人,如果你以宣传活动为目标的话。在这个场景中,您有一个已知Foobar成员的数据库(我们给POS贴上标签的正面类数据)和一个来自普通公众的已知非成员的数据库。这是您没有标签的数据,其中包含的人可能成为或不可能成为成员,如果目标。我们只有POS实例和UL实例--没有标签的NEG实例。
根据您的特定问题、上下文和域,您可以将OCC/PU问题转换为具有标准性能度量的更经典的问题。在我刚才描述的情况下,至少有三种方法可以创建隐式负面类:
您可能想探索的最后一个领域是协同过滤研究中的评估。对一元响应进行协作过滤(例如,Facebook“喜欢”)
可以认为矩阵完全模拟的正-非标号(PU)学习问题在分类和回归建模中。(Aggarwal,2016年年)
也许这个领域已经开发了一些新的OCC评估方法,您可以利用这些方法。然而,如果不知道具体案例的细节,就很难提供更详细的解决方案。请用您的最终解决方案更新这个线程--在这个特定的问题领域需要做更多的研究。
https://datascience.stackexchange.com/questions/11838
复制相似问题