首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >通过聚类选择样本

通过聚类选择样本
EN

Data Science用户
提问于 2016-10-24 18:00:35
回答 1查看 134关注 0票数 1

我有一个偏倚的样本集进入二值分类滑雪板流水线,白色和黑色的样本。

对我来说,获取尽可能多的黑色样品是很容易的,而白色的样本则更难获得。我怀疑黑集是不平衡的,因为我有一个动机去预处理尽可能多的黑色样本,并选择最具代表性的样本。

特征集(在完全不变特征之后)约为28k特征。

我想出的最好的方法是把我的黑色样本聚成一个百分比的白色样本。例如,假设我有500 k白色样本,然后将黑色样本聚成100 k簇,然后随机抽取5个样本(?)在每个集群中。

我的问题如下:

  1. 我怎样才能有一个变压器,将样本聚在一起,并掩盖不需要的样本在雪橇?是否已经为这些任务做好了准备,还是应该基于聚类算法构建自己的转换器?
  2. 你能指出我计划做的任何潜在问题吗?我认为这里的一个潜在风险不是对白色样本进行聚类,但是由于我没有得到足够的样本.
  3. 什么聚类算法可能是一个很好的适合?我正在寻找一种不同的聚类算法,这些算法接受集群的数量作为参数,现在我计划对大多数算法进行实验,看看哪些算法工作得最好,但是我们会对它们的方向表示赞赏。
  4. 此外,在我的例子中,我想阅读关于其他抽样方法的建议。
EN

回答 1

Data Science用户

发布于 2016-11-01 11:47:48

对于您的目的来说,集群太昂贵了(大多数是O(n^2),而像HAC这样的好集群甚至可能是O(n^3) -您将无法在300 k实例上运行它们)。还要注意各种算法的先决条件--它们可能不适用于您的数据,或者结果可能与随机结果一样糟糕!此外,聚类算法可能表现得非常不可预测,并且会产生不平衡的数据集。如果99%的数据都位于同一个集群中,而其他集群几乎是空的(甚至是空的!)

首先,我会考虑删除所有重复的记录,或者接近重复的记录(当然,忽略标识符)。这些算法具有更高的可伸缩性和更多的数据类型。这可能已经足够实现数据缩减的目标了。

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/14741

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档