首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何基于训练数据识别文本相似度?

如何基于训练数据识别文本相似度?
EN

Data Science用户
提问于 2020-07-07 11:09:18
回答 2查看 184关注 0票数 2

我有一套文件(1至11),为其贴上标签。

让我们假设:

代码语言:javascript
复制
Doc No: 1,3,5,7 - Belongs to Type A
Doc No: 2,4,9 - Belongs to Type B
Doc No: 8,10 - Belongs to Type C
Doc No, 6,11 - Belongs to No one

现在,让我们假设我有新来的文件- 11,12,13 ..依此类推,我想知道它们属于哪种类型(A、B、C或无),这是基于该类型中现有文档的文本相似性。有人能建议我如何做到这一点吗?

我是否应该创建自己的数据集,并将其视为一个受监督的问题?

EN

回答 2

Data Science用户

发布于 2020-07-10 17:00:55

是的,这是一个监督问题。我建议遵循在本文中。的例子

票数 0
EN

Data Science用户

发布于 2020-07-16 21:55:21

我会考虑一些不受监督的技术,然后是有监督的标签。基本上,将传入的文档表示为密集的向量,并计算已经标记的文档之间的相似性。然后,用最相似的文档标记它们。

关于如何解决

问题的思考

  • 对所有文档运行潜在的Dirichlet分配(LDA)。
  • 每个标有标签的文档都是主题上的概率分布。
  • 它看起来像文件1:0.1 0.3 0.0 ..。,文档2:0.8 0.3 0.1,.
  • 最后,对于所有传入的文档,计算与所有已标记文档的相似性。
  • 用大多数类似文档的标签标记传入的文档,该文档已经被标记。

另一个想法

  • 用基于Word2Vec的模型替换LDA。
票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/77299

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档