首页
学习
活动
专区
圈层
工具
发布

LDA解释
EN

Stack Overflow用户
提问于 2016-10-17 13:15:59
回答 1查看 10.8K关注 0票数 6

我使用HMeasure软件包来参与我对信用风险的分析。我有11000个乳房,我选择了年龄和收入来进行分析。我不知道如何解释LDA的R结果。所以,我不知道我是否根据信用风险选择了最好的变量。我给你看下面的代码。

代码语言:javascript
复制
lda(default ~ ETA, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA
0 34.80251
1 37.81549

Coefficients of linear discriminants:
         LD1
ETA 0.1833161
代码语言:javascript
复制
lda(default~ ETA + Stipendio,  train)

Call:
lda(default ~ ETA + Stipendio, data = train)

Prior probabilities of groups:
       0         1 
0.4717286 0.5282714 

Group means:
      ETA Stipendio
0 34.80251  1535.531
1 37.81549  1675.841

Coefficients of linear discriminants:
                 LD1
ETA       0.148374799
Stipendio 0.001445174
代码语言:javascript
复制
lda(default~ ETA, train)
ldaP <- predict(lda, data= test)

其中ETA =年龄和窒息物=收入

非常感谢!

EN

回答 1

Stack Overflow用户

发布于 2017-04-22 10:35:12

LDA使用每个类的均值和方差来创建它们之间的线性边界(或分离)。此边界由系数分隔。

您有两个不同的模型,一个依赖于变量ETA,另一个依赖于ETAStipendio

您首先可以看到的是Prior probabilities of groups。这些概率是您的培训数据中已经存在的概率。也就是说,47.17%的培训数据对应于评估为0的信用风险,52.82%的培训数据对应于评估为1的信用风险(我假设0表示“无风险”,1表示“风险”)。在两种模型中,这些概率是相同的。

您可以看到的第二件事是Group,它是每个类中每个预测器的平均值。这些数值表明,变量ETA对高风险信贷(37.8154)的影响可能略大于对非风险信贷(34.8025)的影响。在第二个模型中,变量Stipendio也会出现这种情况。

第一个模型中ETA的计算系数为0.1833161。这意味着两个不同类之间的边界将由以下公式指定:

代码语言:javascript
复制
y = 0.1833161 * ETA

这可以由以下线路表示(x表示变量ETA)。信用风险的0或1将预测取决于哪一边的线,他们是。

第二个模型包含两个因变量,ETAStipendio,因此类之间的边界将由以下公式分隔:

代码语言:javascript
复制
y = 0.148374799 * ETA + 0.001445174 * Stipendio

如您所见,这个公式表示一个飞机。(x1代表ETAx2代表Stipendio)。和以前的模型一样,这个平面代表了风险信贷和非风险信用之间的区别。

在第二个模型中,ETA系数比Stipendio系数大得多,表明前者对信用风险的影响大于后者。

我希望这能帮到你。

票数 7
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40087417

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档