文章/答案/技术大牛

发布

社区首页 >问答首页 >通过聚类选择样本

问通过聚类选择样本
EN

Data Science用户

提问于 2016-10-24 18:00:35

回答 1查看 134关注 0票数 1

我有一个偏倚的样本集进入二值分类滑雪板流水线，白色和黑色的样本。

对我来说，获取尽可能多的黑色样品是很容易的，而白色的样本则更难获得。我怀疑黑集是不平衡的，因为我有一个动机去预处理尽可能多的黑色样本，并选择最具代表性的样本。

特征集(在完全不变特征之后)约为28k特征。

我想出的最好的方法是把我的黑色样本聚成一个百分比的白色样本。例如，假设我有500 k白色样本，然后将黑色样本聚成100 k簇，然后随机抽取5个样本(？)在每个集群中。

我的问题如下：

我怎样才能有一个变压器，将样本聚在一起，并掩盖不需要的样本在雪橇？是否已经为这些任务做好了准备，还是应该基于聚类算法构建自己的转换器？
你能指出我计划做的任何潜在问题吗？我认为这里的一个潜在风险不是对白色样本进行聚类，但是由于我没有得到足够的样本.
什么聚类算法可能是一个很好的适合？我正在寻找一种不同的聚类算法，这些算法接受集群的数量作为参数，现在我计划对大多数算法进行实验，看看哪些算法工作得最好，但是我们会对它们的方向表示赞赏。
此外，在我的例子中，我想阅读关于其他抽样方法的建议。

clustering

scikit-learn

sampling

回答 1

Data Science用户

发布于 2016-11-01 11:47:48

对于您的目的来说，集群太昂贵了(大多数是O(n^2)，而像HAC这样的好集群甚至可能是O(n^3) -您将无法在300 k实例上运行它们)。还要注意各种算法的先决条件--它们可能不适用于您的数据，或者结果可能与随机结果一样糟糕！此外，聚类算法可能表现得非常不可预测，并且会产生不平衡的数据集。如果99%的数据都位于同一个集群中，而其他集群几乎是空的(甚至是空的！)

首先，我会考虑删除所有重复的记录，或者接近重复的记录(当然，忽略标识符)。这些算法具有更高的可伸缩性和更多的数据类型。这可能已经足够实现数据缩减的目标了。

票数 3

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/14741

复制

相似问题

问通过聚类选择样本
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过聚类选择样本EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问通过聚类选择样本
EN