假设您在客户和人力代理之间有一组转录的客户服务呼叫,其中每个呼叫的平均长度为7分钟。客户大多会打电话给他们,因为他们对产品有问题。让我们假设一个人可以为每个调用分配一个标签:
基于手动标记的文本,您希望训练一个文本分类器,该分类器将为三个轴中的每个调用预测一个标签。但是唱片的贴标需要时间和金钱。另一方面,需要一定数量的训练数据才能得到较好的预测结果。
考虑到以上假设,你会从多少个人工标记的培训文本开始?你怎么知道你需要更多的有标签的培训教材?
也许你以前也做过类似的工作,可以给出一些建议。
更新(2018-01-19):我的问题没有正确或错误的答案。好吧,理想情况下,有人完成了同样的任务,但这是不太可能的。我将这个问题再留一个星期,然后接受最好的答案。
发布于 2018-01-17 15:20:32
这将是棘手的回答,但我会尽力根据我的经验。
在过去,我对3个数据集进行了文本分类;括号中的数字表示我的数据集有多大:餐馆评论(50K句子)、reddit注释(250k句子)和开发人员来自问题跟踪系统的评论(10k句子)。他们每一个都有多个标签。
在这三个案例中,包括一个有10k个句子的案例,我的F1得分都超过了80%。我特别强调这个数据集,因为有人告诉我,这个数据集的大小要小一些。
因此,在您的情况下,假设您至少有1000个实例(包括客户和代理之间的会话)平均7分钟的呼叫,这应该是一个不错的开始。如果结果不令人满意,您有以下选项:
1)使用不同的模型(MNB、随机森林、决策树,等等)
2)如果第1点给出了多少类似的结果,请检查所有类的实例比率(这里所指的3轴)。如果他们没有分享一个好的比率,获得更多的数据,或尝试不同的平衡技术,如果你不能得到更多的数据。
3)另一种方法是在句子级别而不是信息或会话级别对它们进行分类,为句子生成更多的数据和单个标签,而不是信息或会话本身。
https://stackoverflow.com/questions/48303933
复制相似问题