首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理机器模型训练中的数据采集偏差

如何处理机器模型训练中的数据采集偏差
EN

Data Science用户
提问于 2016-11-08 16:25:57
回答 1查看 405关注 0票数 3

在许多ML问题中,我们收集数据并使用所收集的数据对模型进行训练。以建议为例,所收集的数据可能出于各种原因而有偏见:

  1. 表达偏见。例如,在web上,您可能有分页;对于移动用户来说,可能需要向下滚动以查看超出几个项的内容。
  2. 现有推荐系统的偏差:通常在运行中的生产推荐系统上收集数据,这就引入了偏差。例如,由于个性化,男性消费者几乎没有机会看到女性产品,等等。

在训练一个模型时,有什么方法来处理这个问题?

EN

回答 1

Data Science用户

发布于 2016-11-09 12:58:01

在大数据的世界中,数据已经存在,目前已有足够多的ML模型,但是不断有改进和应用,主要原因是如何从原始数据定义特性。

在您的例子中,引入一个新的特性,作为对数据中存在的偏见的惩罚。为了前夫。在表示法偏倚中,对最上面的项目给予较高的惩罚,对较低的项目给予较低的惩罚。同样,当大多数产品都是男性产品时,采用重量较轻的男性产品,反之亦然。

我仍然需要人类的直觉形式的特征;-)

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/15004

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档