首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PMML模型在不同平台上评分的差异

PMML模型在不同平台上评分的差异
EN

Data Science用户
提问于 2014-10-17 13:58:39
回答 3查看 355关注 0票数 2

我在R中构建了一个玩具随机森林模型(使用来自caret包的German Credit数据集),并在PMML 4.0中导出它,并使用Cascading Pattern库部署到Hadoop上。

我遇到了一个问题,Cascading Pattern对相同数据的评分(在二进制分类问题上)与R中的相同模型不同。在200个观察中,有2个得到了不同的分数。

为什么会这样呢?这是否是由于随机森林的执行情况不同造成的?

EN

回答 3

Data Science用户

回答已采纳

发布于 2014-10-28 06:27:40

不同的是,似乎是由于在RCascading Pattern中实现随机森林(以及后来我尝试过的openscoring )在树投票中的关系方面的不同--也就是说,当构建了偶数的树(例如,500棵树),并且精确地将应用程序分类为Good,而另一半被归类为Bad时,对这些情况的处理就不同了。通过生长和奇数(501)树数来解决这个问题。

票数 3
EN

Data Science用户

发布于 2014-10-26 20:10:06

我认为最有可能的解释是,这两个库在PMML中不完全支持TreeModel。也许一个人只支持一个特性子集,而忽略了那些它不理解的特性。这可能会导致不同的得分。

在这两种情况下,我还会反复检查上游解析代码是否相同。也许一个缺失的值在上游被不同的对待。

票数 1
EN

Data Science用户

发布于 2014-10-29 14:37:00

决策树是不稳定的学习者,对输入参数的变化非常敏感。

票数 -1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/2298

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档