问给定数据集，如何选择学习算法？
EN

Stack Overflow用户

提问于 2020-06-02 05:00:54

回答 1查看 56关注 0票数 0

我要建立一个ML模型，把句子分成不同的类别。我有一个包含2列(句子和标签)和350行的数据集，即形状(350，2)。为了将句子转换成数字表示，我使用了TfIdf矢量化，因此转换后的数据集现在有452列(使用TfIdf获得了451列，标签是1)，即形状(350,452)。一般来说，我有一个比训练样本更多特征的数据集。在这种情况下，最好的分类算法是什么？Logistic回归，SVM (又是什么核？)，神经网络(又是哪种体系结构？)，朴素贝叶斯还是还有其他算法？

如果我将来得到更多的训练样本(但是列的数量并没有增加很多)，比如形状(10000,750)，怎么样？

编辑：这些句子实际上是银行对账单上的叙述。我有大约10到15个标签，所有这些我都是手动贴标签的。例如：税金，银行费用，贷款等，我计划得到更多的结单，我也会贴上标签。我相信我最多可能会有20个左右的标签。

python

machine-learning

classification

回答 1

Stack Overflow用户

发布于 2020-06-02 05:42:32

有了这样一个小的训练集，我想你只有得到一些预先训练过的语言模型，如GPT-2和微调你的问题，才能得到任何合理的结果。即使对于更大的数据集，神经网络也可能仍然是正确的，即使您从零开始就训练自己。顺便问一下，你有几个标签？那是什么样的标签？

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/62145159

复制

相似问题

问给定数据集，如何选择学习算法？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给定数据集，如何选择学习算法？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问给定数据集，如何选择学习算法？
EN