问用于NLP文本分类的聊天数据
EN

Stack Overflow用户

提问于 2020-05-18 14:43:49

回答 1查看 412关注 0票数 0

我有一套聊天对话(每个对话有100个句子)和相应的标签(没有其他元功能)。但每个标签只有5个观察值。我知道我们每个标签都需要大量的观察来创建一个好的分类模型。因此，为了增加培训数据，是否可以将大文本会话分成不同的句子，并将每个句子看作一个不同的观察(现在我将对每个标签进行500个观察)，.What会对分类模型的性能产生影响吗？它是增加还是减少，还是对性能没有影响？如果业绩有变化，为甚麽会改变呢？

python

machine-learning

nlp

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-18 16:27:49

因此，为了增加培训数据，将大量的文本会话分成不同的句子，并将每个句子作为一个不同的观察对象，这是一种很好的做法。

它可以提高性能，但这是棘手的，取决于确切的句子，分裂后，标签应该是有效的个别句子。(难以自动化)

增加数据大小的一种好方法是将数据转换为其他语言并将其翻译回同一种语言(有用性取决于用例)。
您可以查看像马尔科维这样的工具，它的主要用途是建立大型文本语料库模型，并从中生成随机句子。

实现在这里：https://www.kaggle.com/jpmiller/augmenting-the-data

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61872212

复制

相似问题

问用于NLP文本分类的聊天数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于NLP文本分类的聊天数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问用于NLP文本分类的聊天数据
EN