文章/答案/技术大牛

发布

社区首页 >问答首页 >决策树吉尼杂质基本数学Q

问决策树吉尼杂质基本数学Q
EN

Stack Overflow用户

提问于 2016-01-06 06:24:57

回答 1查看 488关注 0票数 1

假设你有三种类型的球:红色，绿色，蓝色。

任何颜色的球出现的几率是红色= 4/10，蓝色= 3/10，绿色= 3/10。

将红色错误分类为4/10*(3/10 + 3/10)或选择“真类”*“错误类”的概率。

为什么你要乘一乘，而不是说加，找出选错红球的几率？我知道Gini杂质方程推广了所有C类的N点和Ni数据点的基本思想。我想我忘记了我的基本概率直觉。

probability

decision-tree

math

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-06 06:46:58

一个球是red的概率是0.4。只有当球是红色的时候，你才能犯一个错误。

假设猜测精确地基于球注1的概率分布，那么蓝色猜测的概率为0.3，绿色猜测的概率为0.3。如果球真的是红色的，这些都是错误的猜测，因为唯一可能的猜测是正确的。

如果两个事件是独立的，则它们发生的概率(P 和 Q)是它们的概率的乘积。如果两个事件是相互排斥的，那么其中一个事件发生的概率(P 或 Q)就是它们的概率之和。

因此，一个球是红色的，和被错误分类的概率是0.4 * (0.3 + 0.3)。

此外，我们还得把一个蓝球被误判为红色或绿色的概率(0.3 * (0.4 + 0.3))和一个绿球被误判为蓝色或红色的概率(0.3 * (0.3 + 0.4))加到0.66。这非常接近2/3的最大值(当所有概率相等时)。

备注：

这里我的答案是基于维基百科中基尼杂质的定义的：吉尼杂质是一种衡量从集合中随机选择的元素被错误标记的频率，如果它是根据子集中标签的分布随机标记的。

票数 5

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/34626901

复制

相似问题

问决策树吉尼杂质基本数学Q
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树吉尼杂质基本数学QEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问决策树吉尼杂质基本数学Q
EN