首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >predict_proba比较

predict_proba比较
EN

Data Science用户
提问于 2018-04-16 03:42:49
回答 1查看 903关注 0票数 1

我想预测单个credit_balance大于值N为真的概率

比较了三种分类方法: Logistic回归法、最小判别法和二次判别法。

对于一个样本预测,对于每一个具有不同值的样本,如何确定哪个模型最适合我的预测?

  1. 线性回归predict_proba结果为[[0.93227393 0.06772607]]
  2. LDA predict_proba[[0.94144572 0.05855428]]
  3. QDA precit_proba[[9.99999999e-01 1.24419207e-09]]

我们应该看哪些参数来决定哪种分类是最适合预测模型的?

EN

回答 1

Data Science用户

发布于 2018-04-16 10:01:17

您需要后退一步,以决定哪个模型最适合您的用例。在这样做之前,predict_proba对于计算类标签的后验概率无疑是很重要的,但是它并不适合与其他模型输出进行比较(特别是决定哪些模型最适合您的预测)。

Logistic回归、QDA和LDA均有不同的研究方法。Logistic回归基于极大似然估计,LDA和QDA基于Bayes定理。为了理解哪一个分类器最适合你的模型,我们需要仔细考虑假设(假设你知道数学表达式),然后你可以判断哪一个最适合你。

1. Logistic回归

在Logistic回归中,可以直接得到某一类观察(Y=k)对特定观察(X=x)的观察概率。没有什么可以假设进行逻辑回归来进行分类。它通常是一种安全的方法,它是不紧急和稳健的。

2. LDA & QDA

LDA算法和QDA算法基于Bayes定理,对观测数据进行分类,分为以下两个步骤。

  • 为每个类(或组ex Y=k1、k2、k3等)标识输入X的分布
  • 用Bayes定理翻转分布计算概率Pr(Y=k|X=x)

以下是LDA和QDA所需的假设:

  1. LDA假设:
    • 所有响应类之间的共同协方差(对于k1、k2、k3响应类而言,σ2 =σk2 =σk3 )
    • 每个响应类中观测值的分布是正常的,具有特定类别的均值(K)和共同的协方差σ。

  2. QDA假设:
    • 每个响应类的不同协方差。对于响应类k1、k2、k3等的前σk1、σk2、σk3 .
    • 观察在每个响应类中的分布是正常的,具有类特定均值(K)和类特定协方差(σk2)。

备注:

  • 当分类器之间需要线性边界时,使用线性判别分析( LDA )。
  • 利用二次判别分析( QDA )方法寻找分类器之间的非线性边界.
  • 当LDA/QDA满足所有要求时,其分类效果优于logistic回归(更有效)。
  • Logistic回归对异常值不敏感,而LDA/QDA对异常值不敏感。

最后:

  • 当类分离和正态假设成立时,LDA和QDA很好地工作。
  • 对于不正常的数据集,Logistic回归具有LDA/QDA的优势。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/30358

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档