我正和一个客户一起做一个特别的项目,我要在这个问题上搞糊涂。基本上,我试着克服我客户的一些短期的、注重结果的想法。
假设你有一个模型来预测赛马的表现。您的模型告诉您的客户出售赛马X,因为其性能的可能性很低(<10%)。这匹马被卖了,说赛马继续赢得3场比赛。你的客户说,“你看,我们不应该放开那匹赛马!模型是错的!”
作为数据科学家,我们可以理解异常现象的发生,这匹马可能也输掉了一些比赛--这次我们只是在概率的错误方面。但你如何克服对客户的反对呢?你如何将短期思维转变为预测建模的长期前景?
发布于 2017-03-21 13:51:11
你用一匹马描述的场景基本上是轶事证据。为了客观地评估你正在做的事情,你需要和客户达成一致,才能让这成为一个实验。
我知道你不相信我的马预测,这完全可以理解。担心那些逃跑的人是人类的天性。让我们客观地处理这件事,做个实验。我会给你50匹马的收购价。然后我们跟踪他们六个月的表现。如果我的收视率平均超过一个硬币翻转,我们就会知道,我们在宏观层面上,即使有少数人逃脱。如果我的模型最终比一个协流差,我们就会知道模型需要改进,或者你需要解雇我。
发布于 2017-03-21 11:32:54
我认为你应该管理好客户的期望。
首先,尝试定义和使用通用术语。你说的是低概率的表现,而你的客户说的是赢得比赛。你能把这些条款联系起来吗?例如,如果性能的概率是赢得一场比赛的概率,那么一旦您有了一个通用的术语,您就可以向客户解释,在不为零和给定X匹马的情况下,低性能选手赢得3场比赛的概率,即使模型是完美的,您也希望看到Y这样的马。
短期和长期的问题,应该讨论和纳入你想要预测的概念。我对赛马并不熟悉,但我认为有些马是短跑运动员,可以赢得一场比赛,而有些马的耐力更强,可以赢得一场完整的比赛。如果有这样的利益差异,他们应该指导整个研究过程。
接下来,您应该向客户解释,该模型是错误的,并不意味着它是无用的。事实上,我在盒's中的想法
从本质上讲,所有的模型都是错误的,但有些是有用的
您可以通过将您的模型与某些基准模型进行比较(例如,假设所有的马都是快速/慢的、简单的近似、公共领域知识估计等)来帮助客户看到好处。
既然我们明白了完美的预测并不是一种受益的要求,那么就给你的客户更多的动力。告诉你的客户,你的模型会有错误,但他可以选择哪一方,他喜欢错误会下降。他可以通过将成本分配给假阳性和假阴性来实现。考虑到成本,您可以调整模型以更好地满足他的需求(例如,通过选择一个优化成本的信心水平)。
一旦有了模型,就计算混淆矩阵并与客户讨论它。向他解释精确性和召回性,以及它们的含义(例如,模型将推荐出售非常好的x%的马)。
最后但并非最不重要的一点是,如果这是一个正在进行的项目,您应该使用这些错误作为改进的来源。改进方法的细节取决于具体项目。但是,至少要研究一下这些案例,并试图理解为什么您的模型在它们上失败了。
祝好运!
https://datascience.stackexchange.com/questions/17721
复制相似问题