我有一套聊天对话(每个对话有100个句子)和相应的标签(没有其他元功能)。但每个标签只有5个观察值。我知道我们每个标签都需要大量的观察来创建一个好的分类模型。因此,为了增加培训数据,是否可以将大文本会话分成不同的句子,并将每个句子看作一个不同的观察(现在我将对每个标签进行500个观察),.What会对分类模型的性能产生影响吗?它是增加还是减少,还是对性能没有影响?如果业绩有变化,为甚麽会改变呢?
发布于 2020-05-18 16:27:49
因此,为了增加培训数据,将大量的文本会话分成不同的句子,并将每个句子作为一个不同的观察对象,这是一种很好的做法。
它可以提高性能,但这是棘手的,取决于确切的句子,分裂后,标签应该是有效的个别句子。(难以自动化)
https://stackoverflow.com/questions/61872212
复制相似问题