首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >聚类小文本描述

聚类小文本描述
EN

Data Science用户
提问于 2019-11-20 22:07:03
回答 1查看 239关注 0票数 1

Im提出了一个独特的文本分类问题。

我给出了一个描述清单,每个描述包含3-8个单词。我知道有些描述几乎是一样的,但其中大多数都有很大的不同。我的目标是对大致相同的描述进行分组,并认为其余的描述是独特的。这种数据集可能会被认为太长,无法手动标记,以便进行有监督的学习。

到目前为止,我的思维过程:

  • TF-国防军将派上用场,因为匹配词的频率极低(因此任何匹配都是非常有价值的)。
  • 非监督聚类技术(如K均值)可能很有用,但在这个空间中存在着继承的K均值选择问题。例如,如果我们有1,000种描述,而只有10种描述(5组2种描述)应该彼此聚在一起(留下9,990种独特的描述),那么我们需要9,995个集群来准确地表示结构(9,990个簇有1个条目,5个集群包含两个项)。这个问题将导致一个极其困难的建模阶段,因为集群的数量会很高(也许这不是一个问题,这个理论应该被测试)。

我对在NLP中使用的无监督学习空间非常陌生。我还有一些可以详述的想法,但我确实需要一些关于其他人如何以这种方式处理聚类文本的建议。如果更好的方案更适合问题空间,我不需要使用K方法或任何其他特定的想法。

编辑:

我开始认为DBSCAN将是一个更好的集群模型。这个文档解释说,每个点可以被聚类,离群值不会比实际组更多地被考虑(在特定的配置下)。在更多的技术术语中,我相信设置一个低的eps分数和minpts值为2将是一个很好的理论来测试。这基本上假设大多数数据属于它自己的集群(大多数数据是唯一的),但是一些数据(在弱最小点配置下)确实应该分组到集群中。DBSCAN通过以算法的方式处理异常值来避免K均值的缺陷。K的意思是在很大程度上依赖于天才猜测的"K“值。

EN

回答 1

Data Science用户

发布于 2019-11-20 23:56:54

在我头顶上:

  • 使用常规的聚类技术,您可以尝试使用特定于文本的距离/相似性度量,而不是仅仅将不同的单词视为元素。SoftTFIDF等混合字符串相似度度量考虑了基于字符的相似度和基于文字的相似性。
  • 用引理代替词,以便于同一概念的匹配。
  • 对于更具体的NLP方法,您可以查看主题建模和/或词义归纳技术。两者以不同的方式遵循相似的想法:前者在语义上更接近您的情况,后者的目的是处理类似于您的简短描述大小的小上下文窗口。我不知道现在的技术现状是什么,但就在不久前,潜在的语义分析还是标准。Afaik这些技术用于大量的数据,但它们可能值得一试。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/63496

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档