文章/答案/技术大牛

发布

社区首页 >问答首页 >如何改进两个相似文档之间的文档分类

问如何改进两个相似文档之间的文档分类
EN

Data Science用户

提问于 2021-12-20 10:41:46

回答 1查看 30关注 0票数 0

我有一个文档分类问题，需要对某个文档是否涉及房地产进行分类。我得到一个网页的网址，从中提取所有的文本，然后使用我训练的模型，实际上是基于LSTM的，我分类它是否与房地产有关。在这里，有房地产属性的页面意味着页面应该只讨论一个属性，而不是更多的属性。

我的模型可以获得以下类型的输入数据之一：

一个具有独特的房地产列表的URL，并讨论该特定的属性。例如1
包含符合特定标准的房地产列表的URL。所有的房产都有3间卧室，在一个特定的租金范围内。例如2。这类页面我称之为索引页。
只是一些随机的网址，从这些经纪人网站谈论他们的组织，他们的成就，他们的团队等。例如3.。

不同的网站显示一个集合或房地产列表与其他网站不同。一些经纪人网站可能有一个房地产清单，每一个房地产作为一个超链接和文本(通常是房地产的标题)。在场景2中，除了房地产的标题之外，列表项可能没有更多的细节。前者将我的模型归类为不是房地产，但后者的网页混淆了，而且该模型有将其归类为房地产的倾向。在场景3中，模型再次执行非常好的操作，直到页面上的文本大小不太大。这类网页可能会谈到出售的房地产、他们的愿景等等。

在训练我的模型时，我已经删除了所有的停止词，标点符号，超链接文本，形成字段文本，词汇量为1000。我没有做任何柠檬化。

如果模型有很高的倾向将这些索引页(包含许多关于多个房地产的详细信息)识别为房地产，那么如何改进分类呢？
我应该缩小词汇量，因为当从网页中提取的文本太大时，它就被识别为房地产？

我参考了这链接来构建和训练我的模型。

machine-learning

classification

nlp

回答 1

Data Science用户

发布于 2021-12-20 13:34:42

我宁愿使用类似于句子-BERT的矢量化方法来计算目标网页文本与参考数据集的相似度分数。引用数据集应包含不同类型页面的文本。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/106277

复制

相似问题

问如何改进两个相似文档之间的文档分类
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何改进两个相似文档之间的文档分类EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何改进两个相似文档之间的文档分类
EN