我有一个复杂的算法,它决定什么时候应该向我们网站上的唯一商店的客户展示广告,在他们登录后,希望他们会购买广告中的内容。我们无法控制广告中的内容,因为我们公司的另一个部门处理这个问题--我们的模式只选择向谁展示广告(我们希望尽可能少地向他们展示广告,因为我们只会以其他方式冒犯客户;这意味着不要向那些登录的人展示广告,只向那些如果没有广告就什么都不买的人展示)。该模型使用培训数据进行培训,我们随机向一些人展示广告,而有些人没有,并记录了他们各自的反应。
该模型的一个初步实现是实时运行,并且很好地对显示广告的人进行分类。但是,每隔几天,就会获得新的数据,并使用整个数据集(每次再培训后的数据集都会变大)对模型进行再培训。但人们担心,如果我们继续这样做,它的性能可能会下降,因为当前的模型实例会影响输入的新数据,用于训练未来的模型实例:没有随机显示广告的客户的百分比将会下降,只有当模型认为他们会购买广告上的内容时,才会显示出越来越多的客户数据。
非官方谷歌数据博客中的“在培训中使用随机化”一节可能包含关于这个问题的有用信息,但不幸的是,这对我来说太技术性了,无法理解所有的问题。除了“是的,担心这个:但是继续随机发送一小部分广告,你会没事”,我得到了,我还能做些什么来减少这个问题呢?
发布于 2018-10-16 17:56:49
以下是一些需要考虑的问题。你可能已经做了其中的一些,但很难说。
这是从3万英尺的角度看的。在不了解你的模型的情况下,很难说出更多。
祝好运。
https://datascience.stackexchange.com/questions/39636
复制相似问题