我刚刚发现了这一点,我有兴趣探索使用SQL存储来计算我的一些学习者的输出。我认为数据库调用可能比base R或Python快得多。
很棒的小插曲:http://cran.nexr.com/web/packages/tidypredict/vignettes/randomForest.html
基本代码:
require(pacman)
p_load(randomForest, tidypredict, dbplyr)
model <- randomForest(Species ~ .,data = iris ,ntree = 10, proximity = TRUE)
tidypredict_sql(model, dbplyr::simulate_mssql())它给出了每个树的SQL代码,然后我可以使用模式聚合这些代码,以获得估计器输出。
那么,我如何将它与h2o.ai,特别是h2o.randomForest这样的东西一起使用呢?
发布于 2021-08-01 21:58:51
在小插图中,数据来自本地R内存,模型是本地R模型(这可以从页面中途的parse_model(model)和tidypredict_fit(model)中推断出来)。您引用的SQL组件仅用于以更易于阅读的格式显示模型。
从您的问题中,我了解到您希望从SQL数据库读取数据并使用SQL拟合模型。但是,从整体上看,数据没有存储在SQL中,模型也不适合使用SQL。
从(简要的)研究来看,h2o.ai似乎是一个软件或平台,而不是一个数据库。dbplyr提供从标准dplyr命令到数据库语言(SQL)的转换。这允许您在R中编写操作,并在数据库上转换和执行这些操作,而无需将信息拉入本地R内存。
我已经编写了R函数,可以将本地表或数据库表作为输入处理。但这需要一些深思熟虑的设计选择。因此,虽然您可以将远程dbplyr表传递给h2o.ai模型,但除非底层函数是用R编写的,并且使用的方式可以与dbplyr转换一起使用,否则我认为模型会出错。
对于商业AI软件来说,如果没有内置的数据库访问方式,那将是非常令人惊讶的。因此,调查h2o.ai是如何推荐摄取数据的可能会更有效。
https://stackoverflow.com/questions/68352384
复制相似问题