首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python -计算模型的成本、盈利能力和效益。

Python -计算模型的成本、盈利能力和效益。
EN

Data Science用户
提问于 2018-03-02 17:12:28
回答 1查看 1.6K关注 0票数 0

为了计算模型的精度,并使用决策树分类器打印混淆矩阵,我在Python中编写了以下代码:

代码语言:javascript
复制
coef_gini = DecisionTreeClassifier(criterion = "gini", random_state = 100, max_depth = 3, min_samples_leaf = 5)
coef_gini.fit(training_features, training_target)

y_pred = coef_gini.predict(test_features)
y_pred

for name, importance in zip(training_features.columns, coef_gini.feature_importances_):
    print(name, importance)

print ( "Train Accuracy using Decision Trees Classifier is : ", accuracy_score(training_target, coef_gini.predict(training_features)))
print ( "Test Accuracy using Decision Trees Classifier is : ", accuracy_score(test_target, y_pred))
print ( "Confusion matrix using Decision Trees Classifier is ", confusion_matrix(test_target, y_pred))

成本矩阵是什么?这就是公司为每一个错误的预测目标值而损失的钱吗?有人举过例子吗?

谢谢!

EN

回答 1

Data Science用户

回答已采纳

发布于 2018-03-02 18:28:56

混淆矩阵

混淆矩阵是衡量分类算法精度的重要工具。它比较了预测的结果和实际的结果。

设想1:信贷风险

根据信用风险记分卡,信用卡申请分为“好”和“坏”两类。“Good”指的是在信用卡上支付欠款的申请人,“Bad”是指客户拖欠欠款。现在,将客户与客户支付行为的实际表现进行比较,比如18个月后。因此,将预测类别(“好”或“坏”)与实际客户行为状态(“默认”或“常规”)进行比较。

在I型错误/假阳性(接受坏客户)和II型错误/假阴性(拒绝好客户)之间总是有一种权衡。

我们通常需要优化假阳性率(I型错误)和假阴性率( II型错误)。

因此,成本矩阵在图像中的作用是为分类规则找到最优的截断值。现在,回到信用风险模型。在机会损失成本(错过接受一个好客户/第二类错误)和接受潜在违约者成本(由于违约而造成的损失)之间,截断值优化。

Referencing Example is from a blog and image from Google..

成本矩阵

成本矩阵类似于混淆矩阵。只是,我们在这里更关心的是假阳性和假阴性,.There是与真正和真负相关的无成本惩罚,因为它们是正确识别的。

该方法的目的是选择一个总成本最低的分类器。

  • Total Cost = C(FN)xFN + C(FP)xFP

哪里,

  • FN是错误预测的阳性观测数。
  • FP是错误预测的负数。
  • C(FN) and C(FP)分别对应于与假阴性和假阳性相关的成本。记住,C(FN) > C(FP).

希望这有帮助..。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28529

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档