文章/答案/技术大牛

发布

社区首页 >问答首页 >培训数据质量下降(Google数据科学博客)

问培训数据质量下降(Google数据科学博客)
EN

Data Science用户

提问于 2018-10-13 18:50:45

回答 1查看 37关注 0票数 1

我有一个复杂的算法，它决定什么时候应该向我们网站上的唯一商店的客户展示广告，在他们登录后，希望他们会购买广告中的内容。我们无法控制广告中的内容，因为我们公司的另一个部门处理这个问题--我们的模式只选择向谁展示广告(我们希望尽可能少地向他们展示广告，因为我们只会以其他方式冒犯客户；这意味着不要向那些登录的人展示广告，只向那些如果没有广告就什么都不买的人展示)。该模型使用培训数据进行培训，我们随机向一些人展示广告，而有些人没有，并记录了他们各自的反应。

该模型的一个初步实现是实时运行，并且很好地对显示广告的人进行分类。但是，每隔几天，就会获得新的数据，并使用整个数据集(每次再培训后的数据集都会变大)对模型进行再培训。但人们担心，如果我们继续这样做，它的性能可能会下降，因为当前的模型实例会影响输入的新数据，用于训练未来的模型实例:没有随机显示广告的客户的百分比将会下降，只有当模型认为他们会购买广告上的内容时，才会显示出越来越多的客户数据。

我们担心我们的数据将来会变得偏颇吗？

非官方谷歌数据博客中的“在培训中使用随机化”一节可能包含关于这个问题的有用信息，但不幸的是，这对我来说太技术性了，无法理解所有的问题。除了“是的，担心这个:但是继续随机发送一小部分广告，你会没事”，我得到了，我还能做些什么来减少这个问题呢？

dataset

training

bias

回答 1

Data Science用户

回答已采纳

发布于 2018-10-16 17:56:49

以下是一些需要考虑的问题。你可能已经做了其中的一些，但很难说。

当新数据到达时，将它们添加到数据库中。随机抽样，替换你的数据库。在所有其他条件相同的情况下，取2/3样本并保留1/3进行测试。记录训练误差和预测误差。
每隔一段时间，只取过去的训练数据集，并测量新数据样本上的预测误差。
准备训练误差、当代预测误差和训练后预测误差的时间序列.
寻找趋势和时间自相关。
考虑对所提供产品的需求可能的季节性。
考虑市场变化(新竞争者的进入、替代商品、价格点)

这是从3万英尺的角度看的。在不了解你的模型的情况下，很难说出更多。

祝好运。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/39636

复制

相似问题

问培训数据质量下降(Google数据科学博客)
EN

我们担心我们的数据将来会变得偏颇吗？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问培训数据质量下降(Google数据科学博客)EN

我们担心我们的数据将来会变得偏颇吗？

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问培训数据质量下降(Google数据科学博客)
EN