我想做一个分类器,用正确的标签在语料库中标注每一个文本(S)。我可以直接去ML使用sklearn多标签文本分类,甚至到DL使用LSTM。但是,从简单开始,首先使用基于规则的系统不是更好吗?这将帮助我理解问题,并设定一个基准准确性评分。然后,我可以使我的算法越来越复杂(ML,DL)的方式,只有帮助精度和回忆。
发布于 2020-06-07 21:31:29
因此,您正在询问如何开发这个系统/模型,它可以对文本进行分类。是的,实例化一个“基线”或虚拟模型是个好主意,它可以是基于规则的,也可以是随机地为某个文本指定标签。从这个虚拟模型中,您可以使用RNN/LSTM进行多个输入(例如文本中的单词),将类上的单个输出概率作为一个更复杂的模型;然后,您将比较验证和测试的准确性、F1评分等,以确定对模型的改进是否因为模型功能的改变而得到保证,从而对文本进行分类。
https://datascience.stackexchange.com/questions/75408
复制相似问题