首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何估计文本中不同类别的概率

如何估计文本中不同类别的概率
EN

Data Science用户
提问于 2018-01-11 14:20:06
回答 1查看 319关注 0票数 2

假设我有一篇文章,我想根据它的内容为不同的类型(类)分配概率。例如

文本1:喜剧10%,戏剧50%,小说20%,浪漫1%,神话5%,冒险10%文本#2 :喜剧40%,戏剧3%,虚构2%,浪漫30%,神话5%,冒险10%

我们给出了每个类中的关键字(可能是ngram),通过这些关键字进行比较。

喜剧类: k11,k12,.,k1m第2级戏剧: k21,k22,.,k2n第3级小说: k31,k32,.,k3o Class 4 Romance : k41,k42,.,k4p第5级神话: k51,k52,.,k5q Class 6 Adventure: k61,k62,.

什么是我们在这个任务中可以使用的最佳概率模型?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-01-11 18:47:14

如果我正确理解,我们对软多标号分类感兴趣,其中一个文本可以有多个正确的类型。

根据您的评论,我们没有任何培训数据,只是与每一种类型相关的关键字列表。

我们可以尝试计算每个文档和每个关键字列表之间的相似性:

  1. 规格化文档(转换为小写,移除标点符号,对话,非白体等)
  2. 删除停止词
  3. 通过体裁关键字词汇表将文档转换为tf-以色列国防军向量:每个文档都有一个n长度的向量,其中每个条目都是文档中ith类型关键字的频率。将此矢量规范化为1级。
  4. 以同样的方式将每种类型的关键字列表转换为tf-以色列国防军向量(同样用于所有类型的关键字词汇表)。
  5. 计算文档向量和每个类型向量之间的余弦相似

对于每个文档,这将给我们一个范围内的数字0,1为每一种类型。例如:

代码语言:javascript
复制
         Comedy Drama Fiction Romance Mythology Adventure
Text #1: 0.15   0.11  0.03    0.00    0.00      0.07

如果我们做单个标签分类,我们可以将每一行标准化为1,并且我们可能有一个工作模型。然而,这里没有这样的多标签分类技巧。我们没有一种很好的方法把这些值校准成概率估计。

在这一点上,我看到的唯一解决方案是建立一个小的培训集,这样我们就可以将我们的模型与实际数据相匹配。

在收集了一些训练实例后,我们可以以余弦相似度作为输入特征,用乙状体激活与二元交叉熵损失进行多标签回归,得到每个类的概率估计。

使用这种方法,我们的体裁关键字列表至少可以避免我们建立一个大型的训练集来直接用一纸空文或类似的方法来解决问题。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/26521

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档