我正在尝试将我正在使用的数据集的各个部分组合在一起。我有一群拥有各种不同技能的人。这个想法是为了让最大百分比的代理和技能得到代表。
因此,在一个完美的场景中,最好能得到一个包含85-90%的记录的代理样本,以及一组代表85-90%的记录的技能。基本上,我希望获得最大百分比的样本,而不是有一小群只有几个技能的代理,或者只有很小百分比的代理使用的技能。
我正在尝试找到一种更具统计学意义的方法来实现这一点,并考虑到集群。但据我所知,聚类需要一个距离定义。我不确定这个数据是否符合这个要求。
以下是数据外观的一个小示例:
Agent Skill
1 Claims
1 Benefits
2 Claims
2 -
3 Other发布于 2015-11-05 15:31:31
您使用了错误的工具来解决此问题。
您尝试做的是set cover问题的变体,而不是集群。
除了你正在寻找的不是一个最小的封面,而是一个近似的上封面。
你需要决定什么时候一个解决方案比另一个更好。你对此的描述太模糊了-它允许保留一切的琐碎解决方案: 100%覆盖。
然后反复尝试以下任一操作:
这取决于什么能带来最好的改进。
但同样,您需要有一个正式的质量标准。
https://stackoverflow.com/questions/33533253
复制相似问题