文章/答案/技术大牛

发布

社区首页 >问答首页 >聚类非数值型组

问聚类非数值型组
EN

Stack Overflow用户

提问于 2015-11-05 06:25:07

回答 1查看 228关注 0票数 0

我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群拥有各种不同技能的人。这个想法是为了让最大百分比的代理和技能得到代表。

因此，在一个完美的场景中，最好能得到一个包含85-90%的记录的代理样本，以及一组代表85-90%的记录的技能。基本上，我希望获得最大百分比的样本，而不是有一小群只有几个技能的代理，或者只有很小百分比的代理使用的技能。

我正在尝试找到一种更具统计学意义的方法来实现这一点，并考虑到集群。但据我所知，聚类需要一个距离定义。我不确定这个数据是否符合这个要求。

以下是数据外观的一个小示例：

      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other

cluster-analysis

k-means

hierarchical-clustering

statistics

回答 1

Stack Overflow用户

发布于 2015-11-05 15:31:31

您使用了错误的工具来解决此问题。

您尝试做的是set cover问题的变体，而不是集群。

除了你正在寻找的不是一个最小的封面，而是一个近似的上封面。

你需要决定什么时候一个解决方案比另一个更好。你对此的描述太模糊了-它允许保留一切的琐碎解决方案: 100%覆盖。

然后反复尝试以下任一操作：

remove an agent
remove a skill

这取决于什么能带来最好的改进。

但同样，您需要有一个正式的质量标准。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/33533253

复制

相似问题

问聚类非数值型组
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类非数值型组EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问聚类非数值型组
EN