我有一个偏倚的样本集进入二值分类滑雪板流水线,白色和黑色的样本。
对我来说,获取尽可能多的黑色样品是很容易的,而白色的样本则更难获得。我怀疑黑集是不平衡的,因为我有一个动机去预处理尽可能多的黑色样本,并选择最具代表性的样本。
特征集(在完全不变特征之后)约为28k特征。
我想出的最好的方法是把我的黑色样本聚成一个百分比的白色样本。例如,假设我有500 k白色样本,然后将黑色样本聚成100 k簇,然后随机抽取5个样本(?)在每个集群中。
我的问题如下:
发布于 2016-11-01 11:47:48
对于您的目的来说,集群太昂贵了(大多数是O(n^2),而像HAC这样的好集群甚至可能是O(n^3) -您将无法在300 k实例上运行它们)。还要注意各种算法的先决条件--它们可能不适用于您的数据,或者结果可能与随机结果一样糟糕!此外,聚类算法可能表现得非常不可预测,并且会产生不平衡的数据集。如果99%的数据都位于同一个集群中,而其他集群几乎是空的(甚至是空的!)
首先,我会考虑删除所有重复的记录,或者接近重复的记录(当然,忽略标识符)。这些算法具有更高的可伸缩性和更多的数据类型。这可能已经足够实现数据缩减的目标了。
https://datascience.stackexchange.com/questions/14741
复制相似问题