我用Python构建了一个随机森林分类模型,它运行得很好。但是,对于实现,我想从零开始在SQL上构建它。随机森林分类模型有系数吗?特征阳痿值与系数相同吗?
发布于 2022-02-22 23:18:59
随机森林(RF)是一种基于“多数投票”的非参数方法。因此,不需要估计参数。特征的重要性是基于排列,而且也没有需要估计的参数。请回答您的问题:
发布于 2022-02-23 11:06:07
在SQL基础上构建意味着什么?这是否意味着您将将模型中的所有树重新实现为SQL?这将是大量的案例陈述和联接。一个快速的想法是,每一棵树都可以是一个临时表或一个公共表表达式,其中有一组嵌套的case语句,然后通过记录的一个唯一值和另一组要投票的case语句连接起来。这将是大量的工作,不太可调试或可维护。当模型被重新设计时,所有开发SQL的工作都需要重新做。考虑到每棵树中可能有500、1000或更多的树,每棵树有10个或更多的层次(一些随机福雷斯特可能很大)。有些RDBMS无法连接1000个表,因此可能需要将最后的连接拆分为多个。一些RDBMS可能对嵌套case语句有限制。
这听起来像是一个重新评估生产环境的机会。如果得分必须在SQL中,那么带有系数的模型似乎是更好的选择。
如果使用中的RDBMS支持远程过程,那么检查链接到构建随机forrest并可以直接得分的工具。
发布于 2022-02-28 20:03:22
我不知道你所说的“系数”是什么意思。一个随机森林分类器由决策树组成。每个决策树都有分割点,其中它选择要拆分的特性和值。
在随机森林中,特征重要性可以用杂质来估计,该杂质被计算为该特征带来的判据的(归一化)总约简。这是在拆分步骤之后的另一个步骤。
https://datascience.stackexchange.com/questions/108435
复制相似问题