在关于ML算法的讨论中,例如在犯罪预测中,非专家经常声称反馈回路存在问题,导致模型有偏差,并给出了错误的结果。基本上说,模型的预测更注重这类数据,当对结果进行再培训时,预测会变得偏斜,因此更多地关注相同的数据类型,等等。
这是真的吗?
我认为,用新的数据对模型进行再培训,将使其更加精确,而不管这些数据是如何产生的。
发布于 2019-03-20 12:16:05
是的,这是一个真正的问题,一旦系统被真正的用户使用就会表现出来。
最突出的例子是新闻回音室(通过基于ML的推荐系统来强调)
ML algo看到你喜欢与某些观点相关的新闻/视频,你看了更多这样的视频,模型变得更加相信你的选择。因此,它表明更多的内容与类似的观点。
https://en.wikipedia.org/wiki/Echo_腔室_(媒体)
http://theconversation.com/explainer-how-facebook-has-become-the-worlds-largest-echo-chamber-91024
发布于 2019-03-20 12:37:15
是的,反馈循环可以在机器学习中以同样的方式发生。当模型的预测影响到未来的标签时,就会发生这种情况。
假设我们预测的是不同社区的犯罪率。一个邻里有偏见的数据,导致它被预测为更高的犯罪率高于实际情况。这导致更多的警察出现在这个社区,这反过来将导致更多的真实犯罪被发现,而不是在那些没有得到额外关注的地区,这是一个有偏见的模式。这一额外发现的犯罪将出现,任何新的模型将接受培训,即使最初的数据错误/偏见被消除。这种偏颇的模型强化了它自己的偏见,并产生了新的数据来支持它。
https://datascience.stackexchange.com/questions/47666
复制相似问题