我正在将几种机器学习方法应用于现实世界的医疗数据集,但我无法实现测试数据集的高准确率(目前约为80% )。预测疾病是否存在的问题。
有没有办法证明可以达到多大的最大精度?或者一些类似的东西,可以告诉我们特定机器学习模型对数据集的预期精度?
如果不是,我如何证明我得到的准确度是数据集可能的最佳(或接近最佳)准确度?
发布于 2020-02-14 04:51:32
这取决于您的数据的确定性程度。我将用两个变量来说明,y是x的函数。
如果y= x,那么理论上最好的准确率是100%。应该有可能得到一个完美的结果。
现在假设y=x+ rnorm(n,0,sigma),其中n是点数,你可以选择sigma。你可以预测x,但你不能预测随机部分。西格玛越大,你的预测就越差。通过选择一个足够大的sigma,您可以使最好的精度任意降低。
对于真实数据,您通常不知道输入变量决定输出的程度如何,因此您无法说明有意义的理论极限,因为精度在0到1之间。
发布于 2020-02-14 02:47:22
人工检测的准确率是多少?
如果这几乎是你通过机器获得的精度,那么你做得很好!即使机器运行得稍差一些,它也可以被认为是好的。
在行业中,这样的问题大多是产品管理问题,而不是科学问题。
https://stackoverflow.com/questions/60213561
复制相似问题