文章/答案/技术大牛

发布

社区首页 >问答首页 >对特定数据子集的支持向量机偏置算法

问对特定数据子集的支持向量机偏置算法
EN

Data Science用户

提问于 2020-06-24 15:24:59

回答 2查看 34关注 0票数 1

我正在训练一个基于社交媒体数据的情感分析支持向量机模型。推特。

为了对新的推文进行分类，该模型将使用特定公司的tweets信息进行小范围的筛选。然而，由于训练集太小，无法得到精确的模型，我将把公司的数据与更大的一般tweet数据集结合起来，以训练模型。

由于专门针对一家公司，相应数据的内容与一般数据集的内容略有不同。由于预测的数据是专门的公司，在我看来，将模型培训偏向于更加重视公司相关的tweet以提高准确性似乎是合乎逻辑的。我的第一个想法就是简单地增加公司推文的极性，比如一般的推文是-1或1，公司的推文是-3和3。

这是正确的想法/方法吗？

sentiment-analysis

social-network-analysis

scikit-learn

dataset

svm

回答 2

Data Science用户

发布于 2020-06-24 23:49:11

我不认为这是一个非常好的主意:目标不是让该模型预测，当推特与公司有关时，会出现更极端的极性。

相反，您可能需要考虑过抽样这个特定公司的几个实例。例如，如果你的培训集中有100条特定于公司的推文和1000条一般的推文，你可以重复公司特定的推文10次，以便让特定的推文在数据中具有更高的权重。如果可能的话，您应该调优要复制多少次的参数，以获得最优值。

票数 1

Data Science用户

发布于 2020-06-25 13:35:31

请尝试复制特定公司的数据十次或更多，并包括更多的样本交叉/测试数据从该公司的具体数据(3:1)。我希望这会带来一些积极的影响。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/76605

复制

相似问题

问对特定数据子集的支持向量机偏置算法
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对特定数据子集的支持向量机偏置算法EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问对特定数据子集的支持向量机偏置算法
EN