聚类标签(在多标签分类问题中),这些标签通常一起出现在数据帧中?例如,我有这样的数据帧:
text | genre
===========================
text 1 | [action,mistery,horror,thriller]
text 2 | [drama,romance]
text 3 | [comedy,drama,romance]
text 4 | [scifi,mystery,horror,thriller]
text 5 | [horror,mystery,thriller]如何对经常一起出现的标签进行聚类?例如,类型“神秘”、“恐怖”、“惊险”经常一起出现(3次),类型“戏剧”、“浪漫”经常一起出现(2次)。
发布于 2020-12-24 07:48:57
我认为您正在寻求执行频繁模式挖掘,也称为关联规则挖掘。有时人们将其称为关联规则学习,这里有一个维基百科链接指向这个概念:https://en.wikipedia.org/wiki/Association_rule_learning。
频繁模式挖掘领域中的算法通常会根据标签组合在数据中出现的频率对它们进行排序。您可以指定模式中标签的最小和最大数量,并选择支持阈值和置信度阈值。如果没有这些约束,输出将包括标签及其计数、支持和置信度的所有可能组合。
https://stackoverflow.com/questions/65403543
复制相似问题