首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >决策树吉尼杂质基本数学Q

决策树吉尼杂质基本数学Q
EN

Stack Overflow用户
提问于 2016-01-06 06:24:57
回答 1查看 488关注 0票数 1

假设你有三种类型的球:红色,绿色,蓝色。

任何颜色的球出现的几率是红色= 4/10,蓝色= 3/10,绿色= 3/10。

将红色错误分类为4/10*(3/10 + 3/10)或选择“真类”*“错误类”的概率。

为什么你要乘一乘,而不是说加,找出选错红球的几率?我知道Gini杂质方程推广了所有C类的N点和Ni数据点的基本思想。我想我忘记了我的基本概率直觉。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-01-06 06:46:58

一个球是red的概率是0.4。只有当球是红色的时候,你才能犯一个错误。

假设猜测精确地基于球注1的概率分布,那么蓝色猜测的概率为0.3,绿色猜测的概率为0.3。如果球真的是红色的,这些都是错误的猜测,因为唯一可能的猜测是正确的。

如果两个事件是独立的,则它们发生的概率(P Q)是它们的概率的乘积。如果两个事件是相互排斥的,那么其中一个事件发生的概率(P Q)就是它们的概率之和。

因此,一个球是红色的,被错误分类的概率是0.4 * (0.3 + 0.3)。

此外,我们还得把一个蓝球被误判为红色或绿色的概率(0.3 * (0.4 + 0.3))和一个绿球被误判为蓝色或红色的概率(0.3 * (0.3 + 0.4))加到0.66。这非常接近2/3的最大值(当所有概率相等时)。

备注:

  1. 这里我的答案是基于维基百科中基尼杂质的定义的: 吉尼杂质是一种衡量从集合中随机选择的元素被错误标记的频率,如果它是根据子集中标签的分布随机标记的。
票数 5
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/34626901

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档