首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >连续训练监督学习问题

连续训练监督学习问题
EN

Data Science用户
提问于 2020-08-06 10:07:55
回答 2查看 206关注 0票数 1

我相信这是一个最常见的问题,但专家想知道如何解决这个问题。注意,我主要处理文本数据(NLP问题)。

当创建一个有监督的学习模型时,比如一个文本分类器,它可以很好地处理所见数据,然后我们在生产中部署该模型(您也可以想到一个聊天机器人)。

但在实时情况下,当新类型的数据出现预测失败时,我们发现一个新单词或新模式正在打破模型。因此,我们继续用新遇到的数据对模型进行再培训。这就是持续学习问题开始的地方。

请ML/NLP退伍军人推荐一些替代方案来解决这一劳动问题吗?已经尝试了以下办法,并列出了问题:

  • 我们根本不能无限地接受新数据的训练。因为生产系统应该是自愈的。我们不能把一个人的管理费用,不断监测的项目。此外,在模型训练阶段,获取大量的域数据也是不可能的。
  • 使用高级嵌入和SoTA模型,如BERT。(问题:这些模型的准确性太难控制)
  • 综合数据生成/数据增强。(问题:在出现NLP问题时,效果不佳。参考:数据少的培训 )
  • 无监督分类(问题:在封闭域问题上不太有效,因为大多数无监督模型要么是统计性的,提供了公正的准确性,要么是不合适的,或者接受了公共领域数据的培训)。
  • 强化学习(问题:现实世界的NLP数据并没有贴上标签,不像一辆自动驾驶的汽车,在那里反馈是即时的)
EN

回答 2

Data Science用户

发布于 2020-08-06 22:48:31

你所描述的是所谓的自适应学习.这是大多数推荐系统用来适应不断变化的数据和反馈的。它也被称为autoML。这篇https://towardsdatascience.com/how-to-apply-continual-learning-to-your-machine-learning-models-4754adcd7f7f文章很好地解释了它。根据您的数据外观,您可能需要选择适当的再培训策略并执行交错部署。

票数 1
EN

Data Science用户

发布于 2020-08-06 21:53:05

一种解决方案是“循环中的人”和句子编码器。您可以使用混合方法,使用余弦相似+主题建模+ fuzzywuzzy + Bert。我完全理解NLP世界和你所要求的问题。没有一种直接的解决办法。然后利用投票机制筛选出最佳分辨率。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/79883

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档