Im提出了一个独特的文本分类问题。
我给出了一个描述清单,每个描述包含3-8个单词。我知道有些描述几乎是一样的,但其中大多数都有很大的不同。我的目标是对大致相同的描述进行分组,并认为其余的描述是独特的。这种数据集可能会被认为太长,无法手动标记,以便进行有监督的学习。
到目前为止,我的思维过程:
我对在NLP中使用的无监督学习空间非常陌生。我还有一些可以详述的想法,但我确实需要一些关于其他人如何以这种方式处理聚类文本的建议。如果更好的方案更适合问题空间,我不需要使用K方法或任何其他特定的想法。
编辑:
我开始认为DBSCAN将是一个更好的集群模型。这个文档解释说,每个点可以被聚类,离群值不会比实际组更多地被考虑(在特定的配置下)。在更多的技术术语中,我相信设置一个低的eps分数和minpts值为2将是一个很好的理论来测试。这基本上假设大多数数据属于它自己的集群(大多数数据是唯一的),但是一些数据(在弱最小点配置下)确实应该分组到集群中。DBSCAN通过以算法的方式处理异常值来避免K均值的缺陷。K的意思是在很大程度上依赖于天才猜测的"K“值。
发布于 2019-11-20 23:56:54
在我头顶上:
https://datascience.stackexchange.com/questions/63496
复制相似问题