首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果有的话,机器学习算法被认为是可解释性和预测之间的一个很好的权衡?

如果有的话,机器学习算法被认为是可解释性和预测之间的一个很好的权衡?
EN

Data Science用户
提问于 2016-05-22 23:56:24
回答 3查看 654关注 0票数 9

描述梯度增强机器或神经网络等算法的机器学习文本经常评论说这些模型擅长预测,但这是以失去可解释性或可解释性为代价的。相反,单决策树和经典回归模型被标记为善于解释,但与更复杂的模型(如随机森林或支持向量机)相比,预测精度(相对)较差。是否有普遍接受的机器学习模型代表两者之间的良好权衡?是否有任何文献列举了算法的特点,使它们可以解释?(这个问题以前是在交叉验证时提出的)

EN

回答 3

Data Science用户

回答已采纳

发布于 2016-05-23 13:32:54

是否有任何文献列举了算法的特点,使它们可以解释?

我唯一知道的文献是Ribero,Singh和Guestrin最近的。他们首先定义了单个预测的可解释性:

通过“解释预测”,我们指的是提供对实例的组件(例如文本中的单词、图像中的补丁)和模型的预测之间的关系提供定性理解的文本或视觉工件。

作者进一步阐述了这对于更具体的例子意味着什么,然后用这个概念来定义模型的可解释性。他们的目标是人为地为不透明的模型添加可解释性,而不是比较现有方法的可解释性。无论如何,这篇论文可能会有所帮助,因为它试图围绕“可解释性”的概念引入一个更精确的术语。

是否有普遍接受的机器学习模型代表两者之间的良好权衡?

我同意“温特”的观点,即弹性网的回归(不仅仅是逻辑回归)可以被看作是预测准确性和可解释性之间的一个很好的折衷的例子。

对于不同类型的应用领域(时间序列),另一类方法也提供了很好的折衷:贝叶斯结构时间序列建模。它继承了经典结构时间序列模型的可解释性,也继承了贝叶斯方法的一些灵活性。类似于logistic回归,模型的回归方程有助于解释性。有关营销和进一步参考的良好应用程序,请参见本论文

与刚才提到的贝叶斯上下文相关,您可能还需要查看概率图形模型。它们的可解释性不依赖于回归方程,而是依赖于图形化建模方法;参见Koller和Friedman的“概率图形模型:原理和技术”,以获得更好的概述。

不过,我不确定我们能否将上述贝叶斯方法称为“普遍接受的良好权衡”。它们可能没有足够的知名度,特别是与弹性网络的例子相比。

票数 3
EN

Data Science用户

发布于 2016-05-23 05:26:04

是否有普遍接受的机器学习模型代表两者之间的良好权衡?

我假设,善于预测意味着能够拟合数据中存在的非线性,同时对过度拟合也相当稳健。在可解释性和能够预测这些非线性之间的权衡取决于所询问的数据和问题。在数据科学中真的没有免费的午餐,而且没有一个单独的算法可以被认为是任何数据集的最佳算法(对于可解释性也是如此)。

一般的规则应该是,你知道的算法越多,它对你越好,因为你可以更容易地适应你的特定需求。

如果我必须选择我最喜欢的分类任务,这是我经常在业务环境中使用的,我会选择logistic回归的弹性网。尽管对生成数据的过程有很强的假设,但由于正则化术语的存在,它可以很容易地用于数据,但通过基本的逻辑回归来保持其可解释性。

是否有任何文献列举了算法的特点,使它们可以解释?

我建议你选择一本写得很好的书,它描述了常用的机器学习算法以及它们在不同场景中的优缺点。这类书的一个例子可以是T. Hastie,R. Tibshirani和J. Friedman的统计学习的要素

票数 3
EN

Data Science用户

发布于 2016-05-30 17:06:15

可能会看到我的回答关于集合的不合理有效性,以及解释和预测的权衡。最小消息长度(MML,Wallace 2005)从数据压缩的角度给出了解释的正式定义,并激发了这样一种期望,即解释一般不过分拟合,好的解释产生良好的、可概括的预测。但它也触及了形式理论,为什么集合将预测得更好--这一结果可以追溯到(1964年的Solomonoff)关于最优预测和完全贝叶斯方法的内在结果:在后验分布的基础上进行集成,而不只是选择平均值、中值或模式。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/11880

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档