我有一个文件,其中包括总共438句(所以它不是很大)。但是,我想知道我是否可以使用一个主题建模系统来告诉我哪些句子更相关。有可能吗?
正如我在所有关于主题建模的论文和主题中看到的,这些系统通常基于非常大的语料库工作。我想知道在这么小的数据集中,系统会有多精确。
同时,我的主要目标不是对文本进行主题建模,而是将其作为一个特性(这两个句子是否属于同一个主题)来完成另一个任务。
我也想知道主题是如何确定的?在每个主题建模工具中是否有任何预定义的主题集?或者是用户定义的主题?
最好的尊重,
发布于 2014-07-23 14:28:04
是的,有可能。将每个句子视为标准主题建模技术中的文档,例如潜在Dirichlet分配(LDA)。
这些题目不是事先决定的。在LDA中,主题本质上是一个跨术语的分布。您只需要预先指定主题的数量。频繁发生的词往往属于同一个话题。
回答你的第二个问题:“同时,我的主要目标不是对文本进行主题建模,但我只想把它作为一个特性(不管这两个句子是否属于同一个主题)来完成另一个任务。”
在计算theta矩阵(NxK) (N:=#docs,K:=#topics)之后,您可以计算这些N个分布(每个文档一个)上的度量,例如KL-散度等,以了解哪些文档与另一个文档之间存在拓扑关系。
https://stackoverflow.com/questions/24910220
复制相似问题