我试图使用NN应用机器学习回归解决方案来解决以下问题:
我有银行发放贷款的历史,我需要根据宏观经济变量预测未来的贷款。金额、邮政编码和部分是贷款特征,失业和国内生产总值是宏观经济特征。
Loan Date Amount Zipcode Segment Unemployment GDP Probability
1 Jan-2020 100,000 40921 Corporate 5.1% 2.5% 1.0
2 Oct-2020 250,000 54323 Business 4.9% 3.2% 1.0
3 Mar-2021 223,000 40921 Business 4.8% 3.1% 1.0
4 Dec-2021 562,000 43241 Coporate 5.0% 2.9% 1.0
5 Feb-2022 300,000 54325 Corporate 5.2% 2.7% 1.0我在每一行中都添加了概率= 1.0,因为贷款是实际发放的。概率是机器学习模型中的标签,这是我需要用回归者来预测的。如果概率大于0.5,则发放贷款,否则不予发放。
现在,我需要预测贷款将在下个月,2022年4月至2022年在写这篇文章的时候。问题是,在预测中,我应该以什么作为输入。我的想法是接受过去发放的所有贷款,再加上2022年4月预测的失业率和GDP,看看概率是否大于0.5。
我有两个顾虑。首先,我想知道这个模型是否有意义。第二,由于我对过去发放的贷款数量没有太多的控制,如果历史很大,那么预测的数量也会很大,这是不对的。
对此有何建议吗?
发布于 2022-03-31 17:32:38
考虑到您共享的数据和信息,如果您也有贷款申请被拒绝的行,则此问题可以被称为“分类问题”。鉴于你们共享的数据,我将把问题描述如下:
Independent Variable : ZipCode, Amount, Segment,Unemplyment, GDP
Target Variable : Loan Accepted Flag (0,1)一旦我们有了这些数据,我们也可以尝试把更多的数据,如犯罪率,Defaul率等,通过邮政编码和段的整体水平。
这个模型将使用你的自变量,当你输入所有信息的新贷款时,它将返回接受的概率。
我认为您可以完全忽略日期列,除非您知道负载接受程度随月或任何其他日期相关变量而变化。
一旦提出了问题,您就可以像其他任何分类问题一样来处理它。
发布于 2022-03-31 20:24:07
为了训练机器学习分类模型,需要正负两种标签。看来你只有正面的标签。任何对当前数据进行培训的模型都只能预测所有未来数据的正标签。
我建议找出更多类似的数据,但贷款没有发放。然后,该模型将能够了解哪些特征值与授予或不授予贷款相关联。
https://datascience.stackexchange.com/questions/109459
复制相似问题