文章/答案/技术大牛

发布

社区首页 >问答首页 >没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？

问没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？
EN

Stack Overflow用户

提问于 2021-10-08 01:52:37

回答 1查看 108关注 0票数 1

希望你们做得很好。

我正在使用Facebook的FastText训练一个分类器，以确定一条文本(tweet)是否在谈论经济。为了完成这一任务，我有大约2200条标签为"economy“或"not_economy”的推特，，但我也有近100万条未贴标签的推特。

阅读FastText的文档时，我知道监督的输入文件应该是一个带有__label__economy或__label__not_economy形状前缀的tweet的文档。

文档并没有提到将未标记的文档添加到无监督的输入文件中，但是由于它是一个单词嵌入模型，它应该从单词的文本分布中获取上下文信息，所以我认为给模型提供所有这些额外的信息将有助于更好地表示我的词汇表。出于这个原因，我正在训练模型(使用fasttext supervised -input tweets_input -output tweets_model)，但我也在最后添加无标记文档。事实是，所有这些近100万条推文似乎根本没有改善这一模式。

我知道可以利用这些数据的另一个方法是训练一个无监督的模型，并开始使用句子嵌入来训练分类器。

问题是标题中的问题：

没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？用其他库来获取文档嵌入并训练我自己的分类器更好吗？

谢谢你给我提供的帮助我更好理解的信息。

nlp

fasttext

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-10-08 08:04:24

您不能使用无标记的文档来训练受监督的模型，因为它们没有标签。

你可以试试这个想法：

使用所有文档(也包括未标记的文档)到训练无监督嵌入 (bin文件)
将bin模型转换为vec文件
监督模型的训练，以pretrainedVectors参数的形式提供vec文件:通过这样做，非监督模型就成为受监督模型的基础。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/69489597

复制

相似问题

问没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问没有标签的文档是否将信息添加到Facebook的FastText监督分类器中？
EN