首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >给定数据集,如何选择学习算法?

给定数据集,如何选择学习算法?
EN

Stack Overflow用户
提问于 2020-06-02 05:00:54
回答 1查看 56关注 0票数 0

我要建立一个ML模型,把句子分成不同的类别。我有一个包含2列(句子和标签)和350行的数据集,即形状(350,2)。为了将句子转换成数字表示,我使用了TfIdf矢量化,因此转换后的数据集现在有452列(使用TfIdf获得了451列,标签是1),即形状(350,452)。一般来说,我有一个比训练样本更多特征的数据集。在这种情况下,最好的分类算法是什么?Logistic回归,SVM (又是什么核?),神经网络(又是哪种体系结构?),朴素贝叶斯还是还有其他算法?

如果我将来得到更多的训练样本(但是列的数量并没有增加很多),比如形状(10000,750),怎么样?

编辑:这些句子实际上是银行对账单上的叙述。我有大约10到15个标签,所有这些我都是手动贴标签的。例如:税金,银行费用,贷款等,我计划得到更多的结单,我也会贴上标签。我相信我最多可能会有20个左右的标签。

EN

回答 1

Stack Overflow用户

发布于 2020-06-02 05:42:32

有了这样一个小的训练集,我想你只有得到一些预先训练过的语言模型,如GPT-2和微调你的问题,才能得到任何合理的结果。即使对于更大的数据集,神经网络也可能仍然是正确的,即使您从零开始就训练自己。顺便问一下,你有几个标签?那是什么样的标签?

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62145159

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档