假设我有一篇文章,我想根据它的内容为不同的类型(类)分配概率。例如
文本1:喜剧10%,戏剧50%,小说20%,浪漫1%,神话5%,冒险10%文本#2 :喜剧40%,戏剧3%,虚构2%,浪漫30%,神话5%,冒险10%
我们给出了每个类中的关键字(可能是ngram),通过这些关键字进行比较。
喜剧类: k11,k12,.,k1m第2级戏剧: k21,k22,.,k2n第3级小说: k31,k32,.,k3o Class 4 Romance : k41,k42,.,k4p第5级神话: k51,k52,.,k5q Class 6 Adventure: k61,k62,.
什么是我们在这个任务中可以使用的最佳概率模型?
发布于 2018-01-11 18:47:14
如果我正确理解,我们对软多标号分类感兴趣,其中一个文本可以有多个正确的类型。
根据您的评论,我们没有任何培训数据,只是与每一种类型相关的关键字列表。
我们可以尝试计算每个文档和每个关键字列表之间的相似性:
对于每个文档,这将给我们一个范围内的数字0,1为每一种类型。例如:
Comedy Drama Fiction Romance Mythology Adventure
Text #1: 0.15 0.11 0.03 0.00 0.00 0.07如果我们做单个标签分类,我们可以将每一行标准化为1,并且我们可能有一个工作模型。然而,这里没有这样的多标签分类技巧。我们没有一种很好的方法把这些值校准成概率估计。
在这一点上,我看到的唯一解决方案是建立一个小的培训集,这样我们就可以将我们的模型与实际数据相匹配。
在收集了一些训练实例后,我们可以以余弦相似度作为输入特征,用乙状体激活与二元交叉熵损失进行多标签回归,得到每个类的概率估计。
使用这种方法,我们的体裁关键字列表至少可以避免我们建立一个大型的训练集来直接用一纸空文或类似的方法来解决问题。
https://datascience.stackexchange.com/questions/26521
复制相似问题