首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本分类tas的培训样本数

文本分类tas的培训样本数
EN

Stack Overflow用户
提问于 2018-01-17 14:55:20
回答 1查看 496关注 0票数 0

假设您在客户和人力代理之间有一组转录的客户服务呼叫,其中每个呼叫的平均长度为7分钟。客户大多会打电话给他们,因为他们对产品有问题。让我们假设一个人可以为每个调用分配一个标签:

  • 轴1:从客户的角度看问题是什么?
  • 轴2:从代理人的角度看问题是什么?
  • 第三轴:代理商能解决客户的问题吗?

基于手动标记的文本,您希望训练一个文本分类器,该分类器将为三个轴中的每个调用预测一个标签。但是唱片的贴标需要时间和金钱。另一方面,需要一定数量的训练数据才能得到较好的预测结果。

考虑到以上假设,你会从多少个人工标记的培训文本开始?你怎么知道你需要更多的有标签的培训教材?

也许你以前也做过类似的工作,可以给出一些建议。

更新(2018-01-19):我的问题没有正确或错误的答案。好吧,理想情况下,有人完成了同样的任务,但这是不太可能的。我将这个问题再留一个星期,然后接受最好的答案。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-17 15:20:32

这将是棘手的回答,但我会尽力根据我的经验。

在过去,我对3个数据集进行了文本分类;括号中的数字表示我的数据集有多大:餐馆评论(50K句子)、reddit注释(250k句子)开发人员来自问题跟踪系统的评论(10k句子)。他们每一个都有多个标签。

在这三个案例中,包括一个有10k个句子的案例,我的F1得分都超过了80%。我特别强调这个数据集,因为有人告诉我,这个数据集的大小要小一些。

因此,在您的情况下,假设您至少有1000个实例(包括客户和代理之间的会话)平均7分钟的呼叫,这应该是一个不错的开始。如果结果不令人满意,您有以下选项:

1)使用不同的模型(MNB、随机森林、决策树,等等)

2)如果第1点给出了多少类似的结果,请检查所有类的实例比率(这里所指的3轴)。如果他们没有分享一个好的比率,获得更多的数据,或尝试不同的平衡技术,如果你不能得到更多的数据。

3)另一种方法是在句子级别而不是信息或会话级别对它们进行分类,为句子生成更多的数据和单个标签,而不是信息或会话本身。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/48303933

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档