我相信这是一个最常见的问题,但专家想知道如何解决这个问题。注意,我主要处理文本数据(NLP问题)。
当创建一个有监督的学习模型时,比如一个文本分类器,它可以很好地处理所见数据,然后我们在生产中部署该模型(您也可以想到一个聊天机器人)。
但在实时情况下,当新类型的数据出现预测失败时,我们发现一个新单词或新模式正在打破模型。因此,我们继续用新遇到的数据对模型进行再培训。这就是持续学习问题开始的地方。
请ML/NLP退伍军人推荐一些替代方案来解决这一劳动问题吗?已经尝试了以下办法,并列出了问题:
发布于 2020-08-06 22:48:31
你所描述的是所谓的自适应学习.这是大多数推荐系统用来适应不断变化的数据和反馈的。它也被称为autoML。这篇https://towardsdatascience.com/how-to-apply-continual-learning-to-your-machine-learning-models-4754adcd7f7f文章很好地解释了它。根据您的数据外观,您可能需要选择适当的再培训策略并执行交错部署。
发布于 2020-08-06 21:53:05
一种解决方案是“循环中的人”和句子编码器。您可以使用混合方法,使用余弦相似+主题建模+ fuzzywuzzy + Bert。我完全理解NLP世界和你所要求的问题。没有一种直接的解决办法。然后利用投票机制筛选出最佳分辨率。
https://datascience.stackexchange.com/questions/79883
复制相似问题