我对一个统计分类问题感兴趣。给定特征向量X,我想将X分类为“是”或“否”。然而,训练数据将在人工输入的基础上实时输入.例如,如果用户看到特征向量X,用户将根据他们的专业知识指定“是”或“否”。
与其在参数空间上进行网格搜索,我更愿意在以前提交的数据基础上更智能地探索参数空间。例如,如果参数空间的一部分中有一个密集的"no's“簇,那么保持那里的采样可能是没有意义的--它可能只是更多的"no's”。
我该怎么做呢?C4.5算法似乎就在这条小巷里,但我不确定这是不是该走的路。
另一个微妙之处是,其中一些特性可能是指定随机数据。假设特征向量中的前两个属性指定了高斯分布的均值和方差。即使所有参数保持不变,用户分类的数据也可能有很大的不同。
例如,假设该算法显示加高斯噪声的正弦波,其中高斯分布由特征向量的均值和方差指定。用户会被问到“这个图是否代表正弦波?”两个非常相似的均值或方差值可能仍然有显著不同的图表。
是否有一种处理此类案件的算法?
https://stackoverflow.com/questions/44711102
复制相似问题