首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何改进两个相似文档之间的文档分类

如何改进两个相似文档之间的文档分类
EN

Data Science用户
提问于 2021-12-20 10:41:46
回答 1查看 30关注 0票数 0

我有一个文档分类问题,需要对某个文档是否涉及房地产进行分类。我得到一个网页的网址,从中提取所有的文本,然后使用我训练的模型,实际上是基于LSTM的,我分类它是否与房地产有关。在这里,有房地产属性的页面意味着页面应该只讨论一个属性,而不是更多的属性。

我的模型可以获得以下类型的输入数据之一:

  1. 一个具有独特的房地产列表的URL,并讨论该特定的属性。例如1
  2. 包含符合特定标准的房地产列表的URL。所有的房产都有3间卧室,在一个特定的租金范围内。例如2。这类页面我称之为索引页。
  3. 只是一些随机的网址,从这些经纪人网站谈论他们的组织,他们的成就,他们的团队等。例如3.

不同的网站显示一个集合或房地产列表与其他网站不同。一些经纪人网站可能有一个房地产清单,每一个房地产作为一个超链接和文本(通常是房地产的标题)。在场景2中,除了房地产的标题之外,列表项可能没有更多的细节。前者将我的模型归类为不是房地产,但后者的网页混淆了,而且该模型有将其归类为房地产的倾向。在场景3中,模型再次执行非常好的操作,直到页面上的文本大小不太大。这类网页可能会谈到出售的房地产、他们的愿景等等。

在训练我的模型时,我已经删除了所有的停止词,标点符号,超链接文本,形成字段文本,词汇量为1000。我没有做任何柠檬化。

  • 如果模型有很高的倾向将这些索引页(包含许多关于多个房地产的详细信息)识别为房地产,那么如何改进分类呢?
  • 我应该缩小词汇量,因为当从网页中提取的文本太大时,它就被识别为房地产?

我参考了链接来构建和训练我的模型。

EN

回答 1

Data Science用户

发布于 2021-12-20 13:34:42

我宁愿使用类似于句子-BERT的矢量化方法来计算目标网页文本与参考数据集的相似度分数。引用数据集应包含不同类型页面的文本。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/106277

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档