首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在使用附加不同标签的培训时,可以多次使用培训行吗?

在使用附加不同标签的培训时,可以多次使用培训行吗?
EN

Data Science用户
提问于 2018-06-07 06:40:50
回答 1查看 337关注 0票数 4

如果我有一个数据集,其中对每条短信,相同的,但两个标签是给定的。可能只有一个标签被填好了。要在现实生活中想象这种情景,人们可以把口音划分为“美国英语”和“英国英语”。

这里有一个例子,在每一篇文章中,最多给出了两种情感的价值观。

  • 文本-情感-情感
    • 罗恩是个很和蔼可亲的人--5-4
    • 那可不是你喜欢的地方
    • 丽塔不是那么关心人-1-2

现在,我必须预测给定文本列的单一情感列。

是否可以为培训目的创建如下培训数据集?这样做有什么困难呢?

  • 文本情感
    • 罗恩是个和蔼可亲的人
    • 罗恩是个和蔼可亲的人
    • 那可不是你喜欢的地方
    • 丽塔不那么关心我
    • 丽塔不那么关心别人

编辑:我的重点不是为给定的文本选择一个类,而是决定将该文本包含两次,并将其归因于不同的类。

EN

回答 1

Data Science用户

发布于 2018-06-07 07:48:47

我认为这样做是没有问题的。然而,我要做的是汇总。也就是说,我会把每一个独特的文本,并创建一个独特的实例与它。问题仍然是,我对此有何感想。我会用中值来做,因为它比平均值更健壮。也就是说,如果我有以下情况:

  • 罗恩是个和蔼可亲的人
  • 罗恩是个和蔼可亲的人
  • 罗恩是个和蔼可亲的人
  • 罗恩是个很和善的人

我要把这些归纳为:

  • 罗恩是个和蔼可亲的人

这是为了使出现多次的文本和只出现一次的文本具有同样的重要性。原则上,它们应该是同等重要的,所以没有任何理由让它们中的任何一个出现在你的学习算法中。如果一个实例在学习算法中出现了很多次,那么成本函数比其他实例受到的影响要大得多,我认为这不是您想要的。

编辑

我不知道你的问题是否说每个例子最多出现两次。在这种情况下,中位数和平均值是相同的,所以你可以用平均值进行汇总。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/32771

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档