我有一个时间序列数据,它解释了在交易中的欺诈数量超过1年的时间表,以及目标变量的欺诈与否。
X轴是时间线,Y轴是检测到的欺诈数量.
我们是否有任何ML模型/统计技术试图识别这些欺诈中的趋势,并将其转化为一个可测量的预测变量,其值为0到1,其中接近1的值更容易发生欺诈和vic。
在一年的欺诈趋势是非线性的,所以如果有任何数学转换,我可以应用在时间序列,以便它可以提供给我一个可测量的特征?
有什么建议很感激吗?
我想使用普通的斜率技术,其中负斜率w.r.t时间线较少欺诈,正斜率较多欺诈。它只捕捉线性趋势,但需要捕捉非线性趋势.
编辑::
我忘了一个重要的问题。我将给出一个方案来更好地解释这一点。
对于金融银行,假设我有1000家银行,每家银行都有12个月的时间,每个月检测出多少欺诈行为,以及相应的目标变量--该银行是否存在高风险的欺诈行为。
现在,当我在12个月内遇到一家有相应欺诈行为的新银行时,有什么方法可以找出该银行是否在使用1000家银行的欺诈模式?
我们能用任何时间序列方法吗?我想,如果是针对单一银行,时间序列处理它,因为我有多家银行,我想使用非线性回归技术,假设每个月作为一个特征,训练一个模型可能有用吗?因为我可以得到一个多项式方程,我可以用来预测目标?
也请分享你的想法。
发布于 2019-06-17 14:29:11
我将假设您的数据包括风险变量(客户数据、贷款数据等)。为此,我使用了线性模型、物流模型和条件干扰树。下面是一个不同的高级视图。您确实需要了解底层方法才能获得一个良好的功能模型。我建议在these...binary中使用虚拟变量是最容易解释的。
线性模型或物流模型将产生一个方程,您可以使用它来度量每个记录(贷款)的风险。这种方法需要剔除离群点、库克距离等。
线性:
step(lm(default flag ~ Variable 1 + Variable 2 + ...))后勤:
glm(default flag ~ Variable 1 + Variable 2 + ...)另一种是条件干扰树。我将使用带有ctree()函数的partykit()包。这将根据存储桶中变量的统计意义来存储缺省值。
plot(ctree(default flag ~ Variable 1 + Variable 2, data= "Your data",
controls = "looks this up for your model")另外,如果你也担心违约的时间,那么就进行生存分析。
我在这三个方面都取得了成功。如果您所拥有的只是一个时间段和默认的总计,那么您就不能对此做太多的工作,因为您将没有基本的变量。
https://stackoverflow.com/questions/56631906
复制相似问题