文章/答案/技术大牛

发布

社区首页 >问答首页 >随机森林分类

问随机森林分类
EN

Data Science用户

提问于 2022-02-22 20:55:29

回答 3查看 58关注 0票数 0

我用Python构建了一个随机森林分类模型，它运行得很好。但是，对于实现，我想从零开始在SQL上构建它。随机森林分类模型有系数吗？特征阳痿值与系数相同吗？

random-forest

classification

回答 3

Data Science用户

发布于 2022-02-22 23:18:59

随机森林(RF)是一种基于“多数投票”的非参数方法。因此，不需要估计参数。特征的重要性是基于排列，而且也没有需要估计的参数。请回答您的问题：

第一个问题:否
第二个问题:否

票数 0

Data Science用户

发布于 2022-02-23 11:06:07

在SQL基础上构建意味着什么？这是否意味着您将将模型中的所有树重新实现为SQL？这将是大量的案例陈述和联接。一个快速的想法是，每一棵树都可以是一个临时表或一个公共表表达式，其中有一组嵌套的case语句，然后通过记录的一个唯一值和另一组要投票的case语句连接起来。这将是大量的工作，不太可调试或可维护。当模型被重新设计时，所有开发SQL的工作都需要重新做。考虑到每棵树中可能有500、1000或更多的树，每棵树有10个或更多的层次(一些随机福雷斯特可能很大)。有些RDBMS无法连接1000个表，因此可能需要将最后的连接拆分为多个。一些RDBMS可能对嵌套case语句有限制。

这听起来像是一个重新评估生产环境的机会。如果得分必须在SQL中，那么带有系数的模型似乎是更好的选择。

如果使用中的RDBMS支持远程过程，那么检查链接到构建随机forrest并可以直接得分的工具。

票数 0

Data Science用户

发布于 2022-02-28 20:03:22

我不知道你所说的“系数”是什么意思。一个随机森林分类器由决策树组成。每个决策树都有分割点，其中它选择要拆分的特性和值。

在随机森林中，特征重要性可以用杂质来估计，该杂质被计算为该特征带来的判据的(归一化)总约简。这是在拆分步骤之后的另一个步骤。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/108435

复制

相似问题

问随机森林分类
EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林分类EN

回答 3

Data Science用户

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问随机森林分类
EN