我有一个文档分类问题,需要对某个文档是否涉及房地产进行分类。我得到一个网页的网址,从中提取所有的文本,然后使用我训练的模型,实际上是基于LSTM的,我分类它是否与房地产有关。在这里,有房地产属性的页面意味着页面应该只讨论一个属性,而不是更多的属性。
我的模型可以获得以下类型的输入数据之一:
不同的网站显示一个集合或房地产列表与其他网站不同。一些经纪人网站可能有一个房地产清单,每一个房地产作为一个超链接和文本(通常是房地产的标题)。在场景2中,除了房地产的标题之外,列表项可能没有更多的细节。前者将我的模型归类为不是房地产,但后者的网页混淆了,而且该模型有将其归类为房地产的倾向。在场景3中,模型再次执行非常好的操作,直到页面上的文本大小不太大。这类网页可能会谈到出售的房地产、他们的愿景等等。
在训练我的模型时,我已经删除了所有的停止词,标点符号,超链接文本,形成字段文本,词汇量为1000。我没有做任何柠檬化。
我参考了这链接来构建和训练我的模型。
发布于 2021-12-20 13:34:42
我宁愿使用类似于句子-BERT的矢量化方法来计算目标网页文本与参考数据集的相似度分数。引用数据集应包含不同类型页面的文本。
https://datascience.stackexchange.com/questions/106277
复制相似问题