为了计算模型的精度,并使用决策树分类器打印混淆矩阵,我在Python中编写了以下代码:
coef_gini = DecisionTreeClassifier(criterion = "gini", random_state = 100, max_depth = 3, min_samples_leaf = 5)
coef_gini.fit(training_features, training_target)
y_pred = coef_gini.predict(test_features)
y_pred
for name, importance in zip(training_features.columns, coef_gini.feature_importances_):
print(name, importance)
print ( "Train Accuracy using Decision Trees Classifier is : ", accuracy_score(training_target, coef_gini.predict(training_features)))
print ( "Test Accuracy using Decision Trees Classifier is : ", accuracy_score(test_target, y_pred))
print ( "Confusion matrix using Decision Trees Classifier is ", confusion_matrix(test_target, y_pred))成本矩阵是什么?这就是公司为每一个错误的预测目标值而损失的钱吗?有人举过例子吗?
谢谢!
发布于 2018-03-02 18:28:56
混淆矩阵
混淆矩阵是衡量分类算法精度的重要工具。它比较了预测的结果和实际的结果。
设想1:信贷风险
根据信用风险记分卡,信用卡申请分为“好”和“坏”两类。“Good”指的是在信用卡上支付欠款的申请人,“Bad”是指客户拖欠欠款。现在,将客户与客户支付行为的实际表现进行比较,比如18个月后。因此,将预测类别(“好”或“坏”)与实际客户行为状态(“默认”或“常规”)进行比较。

在I型错误/假阳性(接受坏客户)和II型错误/假阴性(拒绝好客户)之间总是有一种权衡。
我们通常需要优化假阳性率(I型错误)和假阴性率( II型错误)。
因此,成本矩阵在图像中的作用是为分类规则找到最优的截断值。现在,回到信用风险模型。在机会损失成本(错过接受一个好客户/第二类错误)和接受潜在违约者成本(由于违约而造成的损失)之间,截断值优化。
Referencing Example is from a blog and image from Google..
成本矩阵
成本矩阵类似于混淆矩阵。只是,我们在这里更关心的是假阳性和假阴性,.There是与真正和真负相关的无成本惩罚,因为它们是正确识别的。
该方法的目的是选择一个总成本最低的分类器。
Total Cost = C(FN)xFN + C(FP)xFP哪里,
FN是错误预测的阳性观测数。FP是错误预测的负数。C(FN) and C(FP)分别对应于与假阴性和假阳性相关的成本。记住,C(FN) > C(FP).希望这有帮助..。
https://datascience.stackexchange.com/questions/28529
复制相似问题