首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >特征与高斯分布(分类)

特征与高斯分布(分类)
EN

Data Science用户
提问于 2021-02-05 09:01:06
回答 1查看 326关注 0票数 1

我有一个关于变量跟随或不随机分布的问题。我选择了与标签(欺诈/无欺诈)负相关的4个特征。我所得到的灵感来自笔记本,画出了标签上这些特征的分布。结果是,我的特色1(仅欺诈)是遵循正态分布。

以下是我的问题:

  1. 为什么知道我的特性是否服从正态分布很重要呢?->,我猜:有些模型需要它才能更快地收敛或获得更好的结果。
  2. 有没有兴趣将我的特性想象成非欺诈和欺诈,并比较发行版?
  3. 如果我的特征不是服从正态分布,而是按比例排列的话,我还应该强制它们变成高斯形状吗?

非常感谢!

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-02-06 01:33:12

  1. 这完全取决于模型的类型。有些模型需要用参数来表示特征:例如,具有数值特征的朴素贝叶斯需要有一种基于值的概率计算方法,而最常见的情况是假设特征服从正态分布。另一方面,对于决策树来说,特性是否是正态分布并不重要。
  2. 是的,为了知道这个特征是否是一个很好的指标,它可以提供非常多的信息:分布越不同,算法就越容易区分使用这个特征的类。
  3. 不,不要更改特性的分布(除非您有特定的理由这样做,例如基于这些特定数据的专家知识)。您这样做的任何方式都肯定会改变数据的总体分布和/或特性在实例中的关联方式,因此模型不会从真实分布中学习,因此它对真实数据的预测可能会出错。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88965

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档