如果我有一个数据集,其中对每条短信,相同的,但两个标签是给定的。可能只有一个标签被填好了。要在现实生活中想象这种情景,人们可以把口音划分为“美国英语”和“英国英语”。
这里有一个例子,在每一篇文章中,最多给出了两种情感的价值观。
现在,我必须预测给定文本列的单一情感列。
是否可以为培训目的创建如下培训数据集?这样做有什么困难呢?
编辑:我的重点不是为给定的文本选择一个类,而是决定将该文本包含两次,并将其归因于不同的类。
发布于 2018-06-07 07:48:47
我认为这样做是没有问题的。然而,我要做的是汇总。也就是说,我会把每一个独特的文本,并创建一个独特的实例与它。问题仍然是,我对此有何感想。我会用中值来做,因为它比平均值更健壮。也就是说,如果我有以下情况:
我要把这些归纳为:
这是为了使出现多次的文本和只出现一次的文本具有同样的重要性。原则上,它们应该是同等重要的,所以没有任何理由让它们中的任何一个出现在你的学习算法中。如果一个实例在学习算法中出现了很多次,那么成本函数比其他实例受到的影响要大得多,我认为这不是您想要的。
我不知道你的问题是否说每个例子最多出现两次。在这种情况下,中位数和平均值是相同的,所以你可以用平均值进行汇总。
https://datascience.stackexchange.com/questions/32771
复制相似问题