文章/答案/技术大牛

发布

社区首页 >问答首页 >文本分类tas的培训样本数

问文本分类tas的培训样本数
EN

Stack Overflow用户

提问于 2018-01-17 14:55:20

回答 1查看 496关注 0票数 0

假设您在客户和人力代理之间有一组转录的客户服务呼叫，其中每个呼叫的平均长度为7分钟。客户大多会打电话给他们，因为他们对产品有问题。让我们假设一个人可以为每个调用分配一个标签：

轴1:从客户的角度看问题是什么？
轴2:从代理人的角度看问题是什么？
第三轴:代理商能解决客户的问题吗？

基于手动标记的文本，您希望训练一个文本分类器，该分类器将为三个轴中的每个调用预测一个标签。但是唱片的贴标需要时间和金钱。另一方面，需要一定数量的训练数据才能得到较好的预测结果。

考虑到以上假设，你会从多少个人工标记的培训文本开始？你怎么知道你需要更多的有标签的培训教材？

也许你以前也做过类似的工作，可以给出一些建议。

更新(2018-01-19)：我的问题没有正确或错误的答案。好吧，理想情况下，有人完成了同样的任务，但这是不太可能的。我将这个问题再留一个星期，然后接受最好的答案。

nlp

text-classification

spacy

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-01-17 15:20:32

这将是棘手的回答，但我会尽力根据我的经验。

在过去，我对3个数据集进行了文本分类；括号中的数字表示我的数据集有多大：餐馆评论(50K句子)、reddit注释(250k句子)和开发人员来自问题跟踪系统的评论(10k句子)。他们每一个都有多个标签。

在这三个案例中，包括一个有10k个句子的案例，我的F1得分都超过了80%。我特别强调这个数据集，因为有人告诉我，这个数据集的大小要小一些。

因此，在您的情况下，假设您至少有1000个实例(包括客户和代理之间的会话)平均7分钟的呼叫，这应该是一个不错的开始。如果结果不令人满意，您有以下选项：

1)使用不同的模型(MNB、随机森林、决策树，等等)

2)如果第1点给出了多少类似的结果，请检查所有类的实例比率(这里所指的3轴)。如果他们没有分享一个好的比率，获得更多的数据，或尝试不同的平衡技术，如果你不能得到更多的数据。

3)另一种方法是在句子级别而不是信息或会话级别对它们进行分类，为句子生成更多的数据和单个标签，而不是信息或会话本身。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48303933

复制

相似问题

问文本分类tas的培训样本数
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本分类tas的培训样本数EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本分类tas的培训样本数
EN