文章/答案/技术大牛

发布

社区首页 >问答首页 >如何基于训练数据识别文本相似度？

问如何基于训练数据识别文本相似度？
EN

Data Science用户

提问于 2020-07-07 11:09:18

回答 2查看 184关注 0票数 2

我有一套文件(1至11)，为其贴上标签。

让我们假设：

Doc No: 1,3,5,7 - Belongs to Type A
Doc No: 2,4,9 - Belongs to Type B
Doc No: 8,10 - Belongs to Type C
Doc No, 6,11 - Belongs to No one

现在，让我们假设我有新来的文件- 11,12,13 ..依此类推，我想知道它们属于哪种类型(A、B、C或无)，这是基于该类型中现有文档的文本相似性。有人能建议我如何做到这一点吗？

我是否应该创建自己的数据集，并将其视为一个受监督的问题？

recommender-system

word2vec

lda

gensim

text-classification

回答 2

Data Science用户

发布于 2020-07-10 17:00:55

是的，这是一个监督问题。我建议遵循在本文中。的例子

票数 0

Data Science用户

发布于 2020-07-16 21:55:21

我会考虑一些不受监督的技术，然后是有监督的标签。基本上，将传入的文档表示为密集的向量，并计算已经标记的文档之间的相似性。然后，用最相似的文档标记它们。

关于如何解决

问题的思考

对所有文档运行潜在的Dirichlet分配(LDA)。
每个标有标签的文档都是主题上的概率分布。
它看起来像文件1：0.1 0.3 0.0 ..。，文档2：0.8 0.3 0.1，.
最后，对于所有传入的文档，计算与所有已标记文档的相似性。
用大多数类似文档的标签标记传入的文档，该文档已经被标记。

另一个想法

用基于Word2Vec的模型替换LDA。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/77299

复制

相似问题

问如何基于训练数据识别文本相似度？
EN

回答 2

Data Science用户

Data Science用户

关于如何解决

另一个想法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何基于训练数据识别文本相似度？EN

回答 2

Data Science用户

Data Science用户

关于如何解决

另一个想法

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何基于训练数据识别文本相似度？
EN