首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚类非数值型组

聚类非数值型组
EN

Stack Overflow用户
提问于 2015-11-05 06:25:07
回答 1查看 228关注 0票数 0

我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群拥有各种不同技能的人。这个想法是为了让最大百分比的代理和技能得到代表。

因此,在一个完美的场景中,最好能得到一个包含85-90%的记录的代理样本,以及一组代表85-90%的记录的技能。基本上,我希望获得最大百分比的样本,而不是有一小群只有几个技能的代理,或者只有很小百分比的代理使用的技能。

我正在尝试找到一种更具统计学意义的方法来实现这一点,并考虑到集群。但据我所知,聚类需要一个距离定义。我不确定这个数据是否符合这个要求。

以下是数据外观的一个小示例:

代码语言:javascript
复制
      Agent          Skill
        1            Claims
        1            Benefits
        2            Claims
        2              -
        3            Other
EN

回答 1

Stack Overflow用户

发布于 2015-11-05 15:31:31

您使用了错误的工具来解决此问题。

您尝试做的是set cover问题的变体,而不是集群。

除了你正在寻找的不是一个最小的封面,而是一个近似的上封面。

你需要决定什么时候一个解决方案比另一个更好。你对此的描述太模糊了-它允许保留一切的琐碎解决方案: 100%覆盖。

然后反复尝试以下任一操作:

  • remove an agent
  • remove a skill

这取决于什么能带来最好的改进。

但同样,您需要有一个正式的质量标准。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/33533253

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档