首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >随机森林分类

随机森林分类
EN

Data Science用户
提问于 2022-02-22 20:55:29
回答 3查看 58关注 0票数 0

我用Python构建了一个随机森林分类模型,它运行得很好。但是,对于实现,我想从零开始在SQL上构建它。随机森林分类模型有系数吗?特征阳痿值与系数相同吗?

EN

回答 3

Data Science用户

发布于 2022-02-22 23:18:59

随机森林(RF)是一种基于“多数投票”的非参数方法。因此,不需要估计参数。特征的重要性是基于排列,而且也没有需要估计的参数。请回答您的问题:

  1. 第一个问题:否
  2. 第二个问题:否
票数 0
EN

Data Science用户

发布于 2022-02-23 11:06:07

在SQL基础上构建意味着什么?这是否意味着您将将模型中的所有树重新实现为SQL?这将是大量的案例陈述和联接。一个快速的想法是,每一棵树都可以是一个临时表或一个公共表表达式,其中有一组嵌套的case语句,然后通过记录的一个唯一值和另一组要投票的case语句连接起来。这将是大量的工作,不太可调试或可维护。当模型被重新设计时,所有开发SQL的工作都需要重新做。考虑到每棵树中可能有500、1000或更多的树,每棵树有10个或更多的层次(一些随机福雷斯特可能很大)。有些RDBMS无法连接1000个表,因此可能需要将最后的连接拆分为多个。一些RDBMS可能对嵌套case语句有限制。

这听起来像是一个重新评估生产环境的机会。如果得分必须在SQL中,那么带有系数的模型似乎是更好的选择。

如果使用中的RDBMS支持远程过程,那么检查链接到构建随机forrest并可以直接得分的工具。

票数 0
EN

Data Science用户

发布于 2022-02-28 20:03:22

我不知道你所说的“系数”是什么意思。一个随机森林分类器由决策树组成。每个决策树都有分割点,其中它选择要拆分的特性和值。

在随机森林中,特征重要性可以用杂质来估计,该杂质被计算为该特征带来的判据的(归一化)总约简。这是在拆分步骤之后的另一个步骤。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/108435

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档