文章/答案/技术大牛

发布

社区首页 >问答首页 >PMML模型在不同平台上评分的差异

问PMML模型在不同平台上评分的差异
EN

Stack Overflow用户

提问于 2014-10-17 14:01:54

回答 2查看 849关注 0票数 1

我在R中构建了一个玩具随机森林模型(使用来自caret包的German Credit数据集)，并在PMML 4.0中导出它，并使用Cascading Pattern库部署到Hadoop上。

我遇到了一个问题，Cascading Pattern对相同数据的评分(在二进制分类问题上)与R中的相同模型不同。在200个观察中，有2个得到了不同的分数。

为什么会这样呢？这是否是由于随机森林的执行情况不同造成的？

hadoop

machine-learning

pmml

回答 2

Stack Overflow用户

回答已采纳

发布于 2014-10-18 06:43:50

German Credit数据集表示一个分类类型问题.分类类型RF模型的获奖分数只是成员决策树中最常见的类标签。

假设有100棵决策树的RF模型，50棵决策树预测“良好信用”，另50棵决策树预测“不良信用”。R和Cascading Pattern有可能以不同的方式解决这种平局的情况--一个选择先看到的得分，另一个选择最后看到的得分。你可以尝试用奇数的成员决策树重新训练你的射频模型。使用一些不能被二除的值，例如99或101)。

PMML规范告诉我们返回第一次看到的分数。我不确定Cascading Pattern是否注意到了这些细节。您可能需要尝试一种名为JPMML-级联的替代解决方案。

票数 2

Stack Overflow用户

发布于 2014-10-18 13:35:45

分数匹配是个大问题。当模型从科学家的桌面移动到生产IT部署环境时，分数需要匹配。对于分类任务，这也包括所有目标类别的概率。有时在不同的实现/平台之间存在精度问题，这会导致最小的差异(实际上是最小的)。在任何情况下，他们也需要检查。

显然，也可能是模型在PMML中没有得到正确的表示。与R PMML包不太可能。另一种选择是模型没有正确部署。也就是说，评分引擎级联并不能正确地解释PMML文件。

PMML本身有一个名为ModelVerification的模型元素，它允许PMML文件包含得分数据，然后可以用于分数匹配。这是有用的，但不是必要的，因为您应该能够对已经得分的数据集进行评分，并将其与预期的结果进行比较。

有关PMML中的模型验证和分数匹配以及错误处理的更多信息，请检查：https://support.zementis.com/entries/21207918-Verifying-your-model-in-ADAPA-did-it-upload-correctly-

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/26426766

复制

相似问题

问PMML模型在不同平台上评分的差异
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PMML模型在不同平台上评分的差异EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问PMML模型在不同平台上评分的差异
EN