首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >培训数据质量下降(Google数据科学博客)

培训数据质量下降(Google数据科学博客)
EN

Data Science用户
提问于 2018-10-13 18:50:45
回答 1查看 37关注 0票数 1

我有一个复杂的算法,它决定什么时候应该向我们网站上的唯一商店的客户展示广告,在他们登录后,希望他们会购买广告中的内容。我们无法控制广告中的内容,因为我们公司的另一个部门处理这个问题--我们的模式只选择向谁展示广告(我们希望尽可能少地向他们展示广告,因为我们只会以其他方式冒犯客户;这意味着不要向那些登录的人展示广告,只向那些如果没有广告就什么都不买的人展示)。该模型使用培训数据进行培训,我们随机向一些人展示广告,而有些人没有,并记录了他们各自的反应。

该模型的一个初步实现是实时运行,并且很好地对显示广告的人进行分类。但是,每隔几天,就会获得新的数据,并使用整个数据集(每次再培训后的数据集都会变大)对模型进行再培训。但人们担心,如果我们继续这样做,它的性能可能会下降,因为当前的模型实例会影响输入的新数据,用于训练未来的模型实例:没有随机显示广告的客户的百分比将会下降,只有当模型认为他们会购买广告上的内容时,才会显示出越来越多的客户数据。

我们担心我们的数据将来会变得偏颇吗?

非官方谷歌数据博客中的“在培训中使用随机化”一节可能包含关于这个问题的有用信息,但不幸的是,这对我来说太技术性了,无法理解所有的问题。除了“是的,担心这个:但是继续随机发送一小部分广告,你会没事”,我得到了,我还能做些什么来减少这个问题呢?

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-10-16 17:56:49

以下是一些需要考虑的问题。你可能已经做了其中的一些,但很难说。

  1. 当新数据到达时,将它们添加到数据库中。随机抽样,替换你的数据库。在所有其他条件相同的情况下,取2/3样本并保留1/3进行测试。记录训练误差和预测误差。
  2. 每隔一段时间,只取过去的训练数据集,并测量新数据样本上的预测误差。
  3. 准备训练误差、当代预测误差和训练后预测误差的时间序列.
  4. 寻找趋势和时间自相关。
  5. 考虑对所提供产品的需求可能的季节性。
  6. 考虑市场变化(新竞争者的进入、替代商品、价格点)

这是从3万英尺的角度看的。在不了解你的模型的情况下,很难说出更多。

祝好运。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/39636

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档