我要建立一个ML模型,把句子分成不同的类别。我有一个包含2列(句子和标签)和350行的数据集,即形状(350,2)。为了将句子转换成数字表示,我使用了TfIdf矢量化,因此转换后的数据集现在有452列(使用TfIdf获得了451列,标签是1),即形状(350,452)。一般来说,我有一个比训练样本更多特征的数据集。在这种情况下,最好的分类算法是什么?Logistic回归,SVM (又是什么核?),神经网络(又是哪种体系结构?),朴素贝叶斯还是还有其他算法?
如果我将来得到更多的训练样本(但是列的数量并没有增加很多),比如形状(10000,750),怎么样?
编辑:这些句子实际上是银行对账单上的叙述。我有大约10到15个标签,所有这些我都是手动贴标签的。例如:税金,银行费用,贷款等,我计划得到更多的结单,我也会贴上标签。我相信我最多可能会有20个左右的标签。
发布于 2020-06-02 05:42:32
有了这样一个小的训练集,我想你只有得到一些预先训练过的语言模型,如GPT-2和微调你的问题,才能得到任何合理的结果。即使对于更大的数据集,神经网络也可能仍然是正确的,即使您从零开始就训练自己。顺便问一下,你有几个标签?那是什么样的标签?
https://stackoverflow.com/questions/62145159
复制相似问题