希望你们做得很好。
我正在使用Facebook的FastText训练一个分类器,以确定一条文本(tweet)是否在谈论经济。为了完成这一任务,我有大约2200条标签为"economy“或"not_economy”的推特,,但我也有近100万条未贴标签的推特。
阅读FastText的文档时,我知道监督的输入文件应该是一个带有__label__economy或__label__not_economy形状前缀的tweet的文档。
文档并没有提到将未标记的文档添加到无监督的输入文件中,但是由于它是一个单词嵌入模型,它应该从单词的文本分布中获取上下文信息,所以我认为给模型提供所有这些额外的信息将有助于更好地表示我的词汇表。出于这个原因,我正在训练模型(使用fasttext supervised -input tweets_input -output tweets_model),但我也在最后添加无标记文档。事实是,所有这些近100万条推文似乎根本没有改善这一模式。
我知道可以利用这些数据的另一个方法是训练一个无监督的模型,并开始使用句子嵌入来训练分类器。
问题是标题中的问题:
没有标签的文档是否将信息添加到Facebook的FastText监督分类器中?用其他库来获取文档嵌入并训练我自己的分类器更好吗?
谢谢你给我提供的帮助我更好理解的信息。
发布于 2021-10-08 08:04:24
您不能使用无标记的文档来训练受监督的模型,因为它们没有标签。
你可以试试这个想法:
https://stackoverflow.com/questions/69489597
复制相似问题