我正在训练一个基于社交媒体数据的情感分析支持向量机模型。推特。
为了对新的推文进行分类,该模型将使用特定公司的tweets信息进行小范围的筛选。然而,由于训练集太小,无法得到精确的模型,我将把公司的数据与更大的一般tweet数据集结合起来,以训练模型。
由于专门针对一家公司,相应数据的内容与一般数据集的内容略有不同。由于预测的数据是专门的公司,在我看来,将模型培训偏向于更加重视公司相关的tweet以提高准确性似乎是合乎逻辑的。我的第一个想法就是简单地增加公司推文的极性,比如一般的推文是-1或1,公司的推文是-3和3。
这是正确的想法/方法吗?
发布于 2020-06-24 23:49:11
我不认为这是一个非常好的主意:目标不是让该模型预测,当推特与公司有关时,会出现更极端的极性。
相反,您可能需要考虑过抽样这个特定公司的几个实例。例如,如果你的培训集中有100条特定于公司的推文和1000条一般的推文,你可以重复公司特定的推文10次,以便让特定的推文在数据中具有更高的权重。如果可能的话,您应该调优要复制多少次的参数,以获得最优值。
发布于 2020-06-25 13:35:31
请尝试复制特定公司的数据十次或更多,并包括更多的样本交叉/测试数据从该公司的具体数据(3:1)。我希望这会带来一些积极的影响。
https://datascience.stackexchange.com/questions/76605
复制相似问题