什么是最有效的方法来检测这篇文章是否主要是关于一个特定的主题,但没有大量的数据进行培训?我的任务是确定一份文件有多少是关于天气、假期或其他几个特定主题的。
我期待LDA和TFIDF,但据我所知,这种方法是不受监督的,并很好地根据词汇量对大量文档进行聚类/分组。这些技术在控制算法应该关注的主题方面有一定的局限性。此外,在我的例子中,我没有太多的数据来训练模型。因此,我正在考虑生成一些特定主题的标记特征列表,然后用word2vec度量文档中使用的词汇表与目标标记列表之间的余弦相似性。
我的问题是:
发布于 2022-07-14 16:34:16
主题建模是一种获取一些非结构化文本并自动提取其共同主题的技术,是获取大量文本集合鸟瞰视图的一种很好的方法。简单地说,它是一种统计模型,用于发现发生在文档集合中的抽象“主题”。
最后的分数可以使用以下指标计算:
https://datascience.stackexchange.com/questions/72882
复制相似问题