我有一套文件(1至11),为其贴上标签。
让我们假设:
Doc No: 1,3,5,7 - Belongs to Type A
Doc No: 2,4,9 - Belongs to Type B
Doc No: 8,10 - Belongs to Type C
Doc No, 6,11 - Belongs to No one现在,让我们假设我有新来的文件- 11,12,13 ..依此类推,我想知道它们属于哪种类型(A、B、C或无),这是基于该类型中现有文档的文本相似性。有人能建议我如何做到这一点吗?
我是否应该创建自己的数据集,并将其视为一个受监督的问题?
发布于 2020-07-10 17:00:55
是的,这是一个监督问题。我建议遵循在本文中。的例子
发布于 2020-07-16 21:55:21
我会考虑一些不受监督的技术,然后是有监督的标签。基本上,将传入的文档表示为密集的向量,并计算已经标记的文档之间的相似性。然后,用最相似的文档标记它们。
问题的思考
https://datascience.stackexchange.com/questions/77299
复制相似问题