文章/答案/技术大牛

发布

社区首页 >问答首页 >Python -计算模型的成本、盈利能力和效益。

问Python -计算模型的成本、盈利能力和效益。
EN

Data Science用户

提问于 2018-03-02 17:12:28

回答 1查看 1.6K关注 0票数 0

为了计算模型的精度，并使用决策树分类器打印混淆矩阵，我在Python中编写了以下代码：

coef_gini = DecisionTreeClassifier(criterion = "gini", random_state = 100, max_depth = 3, min_samples_leaf = 5)
coef_gini.fit(training_features, training_target)

y_pred = coef_gini.predict(test_features)
y_pred

for name, importance in zip(training_features.columns, coef_gini.feature_importances_):
    print(name, importance)

print ( "Train Accuracy using Decision Trees Classifier is : ", accuracy_score(training_target, coef_gini.predict(training_features)))
print ( "Test Accuracy using Decision Trees Classifier is : ", accuracy_score(test_target, y_pred))
print ( "Confusion matrix using Decision Trees Classifier is ", confusion_matrix(test_target, y_pred))

成本矩阵是什么？这就是公司为每一个错误的预测目标值而损失的钱吗？有人举过例子吗？

谢谢!

model-evaluations

python

predictive-modeling

回答 1

Data Science用户

回答已采纳

发布于 2018-03-02 18:28:56

混淆矩阵

混淆矩阵是衡量分类算法精度的重要工具。它比较了预测的结果和实际的结果。

设想1:信贷风险

根据信用风险记分卡，信用卡申请分为“好”和“坏”两类。“Good”指的是在信用卡上支付欠款的申请人，“Bad”是指客户拖欠欠款。现在，将客户与客户支付行为的实际表现进行比较，比如18个月后。因此，将预测类别(“好”或“坏”)与实际客户行为状态(“默认”或“常规”)进行比较。

在I型错误/假阳性(接受坏客户)和II型错误/假阴性(拒绝好客户)之间总是有一种权衡。

我们通常需要优化假阳性率(I型错误)和假阴性率( II型错误)。

因此，成本矩阵在图像中的作用是为分类规则找到最优的截断值。现在，回到信用风险模型。在机会损失成本(错过接受一个好客户/第二类错误)和接受潜在违约者成本(由于违约而造成的损失)之间，截断值优化。

Referencing Example is from a blog and image from Google..

成本矩阵

成本矩阵类似于混淆矩阵。只是，我们在这里更关心的是假阳性和假阴性，.There是与真正和真负相关的无成本惩罚，因为它们是正确识别的。

该方法的目的是选择一个总成本最低的分类器。

Total Cost = C(FN)xFN + C(FP)xFP

哪里,

FN是错误预测的阳性观测数。
FP是错误预测的负数。
C(FN) and C(FP)分别对应于与假阴性和假阳性相关的成本。记住，C(FN) > C(FP).

希望这有帮助..。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/28529

复制

相似问题

问Python -计算模型的成本、盈利能力和效益。
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -计算模型的成本、盈利能力和效益。EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Python -计算模型的成本、盈利能力和效益。
EN