所以我有几个没有标签的单词,但我需要将它们分类为4-5个类别。我可以明确地说,这个测试集是可以分类的。虽然我没有训练数据,因此我需要使用预先训练好的模型来对这些单词进行分类。哪个模型适合这个范例,它已经在哪个数据集上进行了训练?
谢谢
发布于 2021-02-07 20:00:29
我们正在讨论的任务称为Zero-Shot主题分类-预测模型尚未训练过的主题。这个范例是由拥抱脸库支持的,你可以阅读更多的here。最常见的预训练模型是Bart Large MNLI -在MNLI dataset上训练后的bart-large检查点。这里有一个简单的例子,展示了“我喜欢热狗”的分类,没有任何初步的训练:
pip安装--upgrade transformers
然后,
从转换器导入流水线分类器=流水线(‘零镜头分类’,model='facebook/bart-large-mnli')
labels =“文物”,“动物”,“食物”,“鸟类”hypothesis_template =‘这篇文章是关于{}的。’sequence =“我喜欢热狗”
预测=分类器( print(prediction),labels,hypothesis_template=hypothesis_template,multi_class=True)预测
输出将如下所示
`{'sequence': 'i like hot dogs',
'labels': ['food', 'animals', 'artifacts', 'birds'],
'scores': [0.9971900582313538, 0.00529429130256176, 0.0020991512574255466,
0.00023589911870658398]}`可以解释为,该模型分配的概率最高(0.997..)标签“食物”,这是正确的答案。
https://stackoverflow.com/questions/65262832
复制相似问题