首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >PMML模型在不同平台上评分的差异

PMML模型在不同平台上评分的差异
EN

Stack Overflow用户
提问于 2014-10-17 14:01:54
回答 2查看 849关注 0票数 1

我在R中构建了一个玩具随机森林模型(使用来自caret包的German Credit数据集),并在PMML 4.0中导出它,并使用Cascading Pattern库部署到Hadoop上。

我遇到了一个问题,Cascading Pattern对相同数据的评分(在二进制分类问题上)与R中的相同模型不同。在200个观察中,有2个得到了不同的分数。

为什么会这样呢?这是否是由于随机森林的执行情况不同造成的?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-18 06:43:50

German Credit数据集表示一个分类类型问题.分类类型RF模型的获奖分数只是成员决策树中最常见的类标签。

假设有100棵决策树的RF模型,50棵决策树预测“良好信用”,另50棵决策树预测“不良信用”。RCascading Pattern有可能以不同的方式解决这种平局的情况--一个选择先看到的得分,另一个选择最后看到的得分。你可以尝试用奇数的成员决策树重新训练你的射频模型。使用一些不能被二除的值,例如99或101)。

PMML规范告诉我们返回第一次看到的分数。我不确定Cascading Pattern是否注意到了这些细节。您可能需要尝试一种名为JPMML-级联的替代解决方案。

票数 2
EN

Stack Overflow用户

发布于 2014-10-18 13:35:45

分数匹配是个大问题。当模型从科学家的桌面移动到生产IT部署环境时,分数需要匹配。对于分类任务,这也包括所有目标类别的概率。有时在不同的实现/平台之间存在精度问题,这会导致最小的差异(实际上是最小的)。在任何情况下,他们也需要检查。

显然,也可能是模型在PMML中没有得到正确的表示。与R PMML包不太可能。另一种选择是模型没有正确部署。也就是说,评分引擎级联并不能正确地解释PMML文件。

PMML本身有一个名为ModelVerification的模型元素,它允许PMML文件包含得分数据,然后可以用于分数匹配。这是有用的,但不是必要的,因为您应该能够对已经得分的数据集进行评分,并将其与预期的结果进行比较。

有关PMML中的模型验证和分数匹配以及错误处理的更多信息,请检查:https://support.zementis.com/entries/21207918-Verifying-your-model-in-ADAPA-did-it-upload-correctly-

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26426766

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档