首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SAMshare

    ML | 建模的KS

    我们这做模型的时候,经常是会用KS值来衡量模型的效果,这个指标也是很多领导会直接关注的指标。今天写一篇文章来全面地剖析一下这个指标,了解当中的原理以及实现,因为这些知识是必备的基本功。 不过这不影响我们去使用它,我们只需要知道在中是怎么实现的,并且在实际场景中怎么去使用它就可以了。就如上面我们说的,KS在主要是用于评估模型的好坏样本区分度高低的。什么是区分度? 可以看下图: 从业务上来说,就是越往后的箱子,客户的质量越差,rate整体上呈现单调性,从而可以把大多数的坏人,直接从箱的维度上就可以区分开来了,在后续的策略使用体验上十分友好。 02 KS的生成逻辑 KS的生成逻辑公式也是十分简单: 好样本累计占比坏样本累计占比 在领域,我们在计算KS前一般会根据我们认为的“正态分布原则”进行分箱,一般来说分成了10份,然后再进行KS的计算 03 KS的效果应用 KS的值域在0-1之间,一般来说KS是越大越有区分度的,但在领域并不是越大越好,到底KS值与模型可用性的关系如何,可看下表: 004 KS的实现 首先我们来对上面展示的例子进行

    5.8K31编辑于 2022-02-25
  • 来自专栏LieBrother

    何为

    定义 是风险控制的简称,在百度百科中是这么定义风险控制的。 在我们日常生活中随时可见,小到账户登录验证码,都可以算是一种的手段。 这里我们着重了解下信贷下的,结合了场景的,则赋予了更多的意义。 信贷的目标是「利益最大化」,而不是没有风险,在风险和利润之间找到平衡,是信贷的核心。 ,以及在信贷场景下的如何实现,的目标永远是降风险,但不是一味地降,在不同场景下有不同的考虑。 文章例子参考《智能平台:架构、设计与实现》

    2.6K21编辑于 2022-12-20
  • 来自专栏PingCAP的专栏

    ​网易游戏实时 HTAP 计费平台建设

    本篇内容主要分为五个部分:实时风业务会话会话关联的 Flink 实现HTAP 平台建设提升结果数据能效发展历程与展望未来图片众所周知,网易互娱的核心业务之一是线上互动娱乐应用服务,比如大家耳熟能详的梦幻西游 对于存储起来的这些微观会话进一步被聚合,进而产生整个业务环境上的宏观统计量,以支持我们在整个平台上的分析需求。 HTAP 平台建设当我们完成了算法可行性测试,并使用 Flink 实现了技术原型后。接下来就是如何把这一整套框架平台化,使其成为便捷、准确、丰富的平台。图片平台需要做到以下这些功能。 并且通过可视化的展示可以使我们的平台更准确的提供服务。 未来我们希望,可以实时风平台可以支持更多的功能。比如我们希望支持用 Flink-SQL 即席查询结果;用户反馈驱动的模型修正;结合 Flink-ML 挖掘更深层次数据价值。

    1.9K30编辑于 2023-02-13
  • 来自专栏SAMshare

    ML | 建模的WOE与IV

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步! 第一次接触这两个名词是在做模型的时候,老师教我们可以用IV去做变量筛选,IV(Information Value),中文名是信息值,简单来说这个指标的作用就是来衡量变量的预测能力强弱的,然后IV又是 data_good == value) / len_good iv += (good_rate - bad_rate) * math.log(good_rate / bad_rate,2) 2)注意分组后是否出现某组内的响应(未响应)数量为零的情况,如果为零需要处理一下。 ...], 'col2':[value1,value2,...], ...} ----------------------------------------------------------

    4.4K20发布于 2021-11-30
  • 来自专栏全栈程序员必看

    信贷模型搭建及核心模式分类

    2.评分卡的意义 在互联网金融体系中,量化分析需要贯穿始终,评分卡模型是其中非常重要的一环。 直到我们和某P2P公司的经理实际交流后才明白这其中的含义。在传统银行信用卡业务中,是很喜欢这类少量逾期的客户的,因为他们能给银行创造罚息,但是又不是恶意违约那种客户。 E.应用场景 模型的应用场景非常广泛,只要牵扯互联网金融的行业就缺少不了模型的存在,从借贷的角度来看,平台要评估借贷者的个人征信和还款能力从而保证投资者的收益;从投资者的角度,要保证平台的资金安全 从资金的角度来看,模型是为了评估用户还款能力和还款意愿,反欺诈反作弊,防止用户薅羊毛和保证平台安全等功能;从行业的角度,互联网模型体现在消费金融/供应链金融/信用借贷/P2P/大数据征信等方面。 所以说,模型的计算策略和机制在一个公司属于绝密,规则除了核心的员工,其他人是不能知道规则的。 四、的核心 如果说金融产品的核心是,那么的核心是什么?

    3.8K11编辑于 2022-08-14
  • 来自专栏用户3246163的专栏

    1.1 原则

    business process 价值有: 提高组织效率 更好的风险汇报 提高业务绩效 04.3 描述一个CRO的角色和职责,评估CRO如何和其他高管协作 CRO职责 1.对公司面临的所有风险负责 2. 开发和实现ERM策略 工作范围: 1.设置公司全局风险偏好 2.度量和量化风险 3.设置风险限制 4.开发风险系统 关键技能: 1.领导力 2.说服力 3.有能力保护公司资产 4.理解所有风险的技术技能 采取有理由的防范保证会员服务不用在不合适,欺骗性,违法目的 不可以故意的歪曲报道 不可以从事任何不诚实 不可以从事任何危害GARP和FRM的事情 注意文化不同,出现冲突应该应用最高标准 2 利益冲突 任何情况下保持公平

    3.1K60发布于 2018-09-14
  • 来自专栏全栈程序员必看

    支付模型

    二、基于规则的 规则是最常用的,也是相对来说比较容易上手的模型。从现实情况中总结出一些经验,结合名单数据,制定规则,简单,有效。 常见的规则有: 1. 2. 操作规则 对支付、提现、充值的频率按照用户账号、IP、设备等进行限制,一旦超出阈值,则提升等级。 频率需综合考虑(五)分钟、(一)小时、(一)天、(一)周等维度的数据。 比如2分钟前在中国支付的,2分钟后跑到美国去支付了。 5. 拦截历史规则 用户在某个业务上的消费行为被网关多次拦截。 规则引擎优点: 性能高: 对订单按照规则进行匹配,输出结果。 国外的PayPal是支付平台的标杆,国内前海征信、蚂蚁金服等会使用到更高级的神经网络和机器学习,但实际效果未见到实证材料。 支付场景分析 ; 支付数据仓库建设 ; 支付模型和流程分析(本文); 支付系统架构 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn

    4K22编辑于 2022-08-11
  • 来自专栏SAMshare

    ML | 建模中怎么做拒绝推断

    建模中的样本偏差与拒绝推断》https://zhuanlan.zhihu.com/p/88624987 不过我也还是把他文章里的分类体系在这里重点再次分享一下。 展开法的实施步骤主要是: 1、拿到贷后的样本,按照一定的好坏样本定义规则打上Y值,接着就是常规操作,得到 评分卡模型A; 2、拿着评分卡模型A,去对全量样本(包含拒绝的)进行打分,得到每个样本的模型分P cutoff一般按照业务经验来设置,就是拒绝样本中被赋予通过的样本,其badrate水平,是正常放款样本中的badrate水平的2~4倍; 4、根据步骤3设置的cutoff,高于这个阈值的赋予good标签 06 总结一下 本文算是一个对拒绝推断的入门介绍了,让初涉模型的同学有一个相对来说比较清晰的全局认识,这里面涉及到的很多算法模型上的细节并没有展开来讲,因为我觉得这也会让阅读带来比较大的负担,公众号的文章还是要控制在几分钟内读完比较合适 Reference [1] 异常检测算法分类及经典模型概览 https://blog.csdn.net/cyan_soul/article/details/101702066 [2] 建模中的样本偏差与拒绝推断

    2.9K30编辑于 2022-11-14
  • 来自专栏SAMshare

    ML | 中的异常检测原理与应用

    今天来介绍一下中的异常检测,从最基础的概念开始讲起,因为本人对这块的内容平时工作也做得不多,更多滴偏向于“纸上谈兵”,有什么说得不对的地方,也欢迎各位朋友指正~谢谢。 异常检测的概念 02 异常检测的难点 03 异常检测的分类及常见算法 01 异常检测的概念 异常检测(Anomaly Detection 或 Outlier Detection),又称为离群点检测,在我们领域很多地方都会用到 主要有几个原因: 1)异常点和噪声会混杂在一起,机器难以具体识别开来; 2)现实中很少有异常点的标签,因为标签越多也就意味着遇到过的异常越多,也不符合常识认知; 3)对于标签的定义也是很难,比如1个金融场景 2.上下文异常:一般在时间序列中表现,某个时间点的指标相对前后时间段有较大波动的。比如某个中午交易量异常。 2、半监督DAD:半监督DAD假设所有的训练样本只有一个标签,即正样本,训练过程学习到正样本的界限,测试时,不属于正样本边界内的就划为异常。

    4.1K20编辑于 2022-04-12
  • 来自专栏SAMshare

    ML | 建模老司机的几点思考与总结

    ML」系列文章,主要是分享一下自己多年以来做金融的一些事一些情,当然也包括建模、机器学习、大数据等相关技术分享,欢迎同行交流与新同学的加入,共同学习,进步! 一个机器学习模型的开发周期一般可以分为: 1、业务需求挖掘(Business insight) 2、数据搜集处理(Data Curation) 3、模型训练开发(Modeling) 4、部署及测试上线( 而在开始搜集数据前,需要了解几点内容: 1、模型应用节点 2、时效性要求 2、有没有预算,预算有多少 3、项目紧急程度 模型应用节点 模型的应用节点,决定了你有哪些变量是不可以用的,避免说出现“事后变量 最好还是通过自己总结多方特征筛选的方法,写一套自己的方法,方便自己调用; 2、如果是使用传统机器学习算法,如rf、gbdt、xgb等,建议变量个数不要太多,50个以内差不多了。 ,确定好特征逻辑与部署节点,给到产品经理 3、自己在对应的平台上写sql,测试对数等,更多地,这一步考验的是模型开发者的细心程度,当然,熟悉的老司机会总结出合适自己的一套的变量上线套路,弯道超车 4、模型文件部署到生产环境后

    2K30发布于 2021-11-30
  • 来自专栏SAMshare

    ML | 建模中GBDT和XGBoost怎么调优

    00 Index 01 GBDT和XGBoost的原理介绍 02 GBDT和XGBoost的异同点分析 03 什么建模场景下常用这两个明星算法? 03 什么建模场景下常用这两个明星算法? 交易反欺诈:A级出场率,主要是支付,防止客户进行薅羊毛、套现等行为。 客户流失:A级出场率。 贷后 催收告警:A级出场率。 迁徙率预测:B级出场率。 失联修复:C级出场率。 {‘auto’, ‘sqrt’, ‘log2’}, int or float, default=None。如果不填的话,默认就是用所有的特征。 ... 而关于模型怎么调优,我会在下一节一起讲。 模型怎么调优 关于模型的调优,先前有篇文章讲得比较细致《ML[7] | 模型调优的思路有哪些》,大家可以移步去回顾一下。

    2.5K30编辑于 2022-11-14
  • 来自专栏沃趣科技

    为本创新驱动,券商如何实现智能加速?

    而由于合规处于企业核心竞争力的高度,原数据积累10年,数据量已超30TB。 原“IOE架构”出现了性能瓶颈以及各方面管理问题,具体体现如下: 01 随着业务的发展以及数据量的激增,原有平台开始遭遇IO访问及内部数据交换的瓶颈。非现场平台各项报表和查询生成时间逐渐拉长。 解决方案 沃趣科技以QData高性能数据库云平台作为数据库基础架构平台替换原传统“烟囱式”系统架构,承载合规核心数据库系统,助力业务处理效率大幅提升。 价值提升 1 通过QData数据库云平台大幅提升了系统的业务效率,日终调度业务从原十几个小时缩短至1.5小时,性能提升10倍以上。 2 通过多年的发展,基于沃趣QData Cloud云平台解决方案逐步拓展成数据库私有云应用场景,以Oracle为代表的数据库如:客户关系管理、、合规、自营交易等系统正在逐步迁移到数据库私有云平台

    1.9K10发布于 2021-10-12
  • 来自专栏AI科技时讯

    领域特征工程

    在金融行业,风险控制()是核心环节,它关乎资产安全、合规性以及机构的长期稳健发展。随着大数据时代的到来,金融机构面临着前所未有的数据量和复杂性。 在这样的背景下,领域特征工程应运而生,成为连接原始数据与精准风险评估的桥梁。 特征工程,简而言之,是对数据的一种深度加工,它通过一系列技术手段,将原始数据转化为对风险预测有用的信息。 在领域,特征工程的核心目标是构建出能够准确反映个体或实体风险水平的特征集。 此外,良好的特征工程实践还能促进模型的解释性,为决策提供更加透明的依据。 随着技术的发展,特征工程的方法也在不断创新。 通过综合运用这些特征衍生方法,领域的特征工程能够更全面地挖掘数据潜力,为风险评估提供多维度的视角。

    1.9K11编辑于 2024-08-20
  • 来自专栏全栈程序员必看

    决策引擎经验

    一套完整的体系,在中,少不了决策引擎,今天就浅谈一下决策引擎。 一、优先级 决策引擎是一堆规则的集合,通过不同的分支、层层规则的递进关系进行运算。 系统的作用在于识别绝对与标识相对风险,如果是绝对,则整套的审核结果便将是“拒绝”。既然结果必然是“拒绝”,则没必要运行完所有的规则,而主要单条触发“拒绝”即可停止剩余规则的校验。 (可在客户准入条件中加入本地的内部数据,无成本,精准,实时) 2、无成本或低成本的规则优先于高成本的规则运行 举例说明:借款用户的身份特定不符合要求的,诸如低于18岁的用户,则可优先运行。 2规则上的“参数”可调整与灵活配置 举例说明:很多风体系通常会加入对手机运营商的校验,所以有一些规则,诸如校验用户手机号的使用时间长度是否大于6个月。 例如接了多家三方征信的反欺诈服务,通过比对这几家的触发效果,将反欺诈触发率较高的规则可前置执行。 2规则所要求的“参数” 举例说明:规则定义方向,参数定义标准。

    1.9K30编辑于 2022-07-02
  • 来自专栏JAVA乐园

    实时业务系统

    账号:垃圾注册、撞库、盗号等 交易:盗刷、恶意占用资源、篡改交易金额等 活动:薅羊毛 短信:短信轰炸 项目介绍 实时业务系统是分析风险事件,根据场景动态调整规则,实现自动精准预警风险的系统。 什么样的事件是有风险的,风险分析需要用到统计学,对异常用户的历史数据做统计分析,找出异于正常用户的特征 实时性,风险事件的分析必须毫秒级响应,有些场景下需要尽快拦截,能够给用户止损挽回损失 低误报,这需要人工经验 对各种场景风险阈值和评分的设置,需要长期不断的调整,所以灵活的规则引擎是很重要的 支持对历史数据的回溯,能够发现以前的风险,或许能够找到一些特征供参考 项目标签 轻量级,可扩展,高性能的Java实时业务系统 基于Spring boot构建,配置文件能少则少 使用drools规则引擎管理规则,原则上可以动态配置规则 使用redis、mongodb做计算和事件储存,历史事件支持水平扩展 原理 统计学 ; 扩展规则,针对需要解决的场景问题,添加特定规则,分值也应根据自身场景来调整。

    3.2K10编辑于 2022-06-30
  • 来自专栏大数据架构师成长之路

    数据体系-简介

    早期传统金融的主要利用了信用属性强大的金融数据,一般采用20个维度左右的数据,利用评分来识别客户的还款能力和还款意愿。 结合中国互联网发展,以及目前的征信监管要求,对可用数据及可用类数据做一个全面的梳理。 2.数据来源 2.1 数据应用逻辑 常见流程中,客户准入时提供的资信材料有限,业务机构数据体量不足,仅仅根据内部风险数据进行风险评估会非常片面,无法全面的把某位客户的风险情况,所以通常需要依赖于第三方供应商提供数据作风支撑 未来百行能不能有效被使用上还有待观察,但人员可先了解其相关的资料。百行征信涉及的模块,主要包括以下方面: 报告相关数据:报告时间;查询原因;查询结果等。 4.2 明确需求 建议:回顾第二节数据应用逻辑关于业务类型、风险类型、流程、风险画像等的介绍。

    6K67发布于 2020-06-29
  • 来自专栏全栈程序员必看

    模型–Odds含义

    发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/141728.html原文链接:https://javaforall.cn

    1.6K20编辑于 2022-09-01
  • 来自专栏阿黎逸阳的代码

    建模整体流程

    确定建模目的 在信贷领域中建立模型是为了找出可能会逾期的客户,根据逾期的可能性和资金的松紧程度选择是否放贷。 在支付领域建立模型是为了找出可能存在非法经营的商户,保证商户没有违法经营。 2. 确定好坏样本逻辑 在信贷领域中逾期大于x期(不同公司取值不同)的客户定义为坏客户(1),从未逾期的客户定义为好客户(0) 在支付领域中,有赌博、欺诈、套现、伪卡等行为的商户定义为坏商户(1)(具体根据模型要防的风险决定 特征工程 在领域一直都有这样一句话 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。通俗的讲就是衍生变量去捕获风险客户。 模型上线 在支付领域如果模型验证没有问题,一般会上到线上,自动生成案例。在信贷中会模型搭配规则,判断申请贷款的人是通过放贷、拒绝放贷、还是转人工处理。

    2.6K20发布于 2020-09-08
  • 金融的力量

    随着大数据、云计算和人工智能技术的不断发展,金融成为了维护金融稳定、保护投资者利益的关键。下面我们将深入探讨金融的重要性,以及如何利用云技术提升能力。 金融的定义与重要性 定义 金融,全称为金融风险控制,是指金融机构通过一系列方法和手段,对可能出现的风险进行识别、评估、监控和控制,以减少损失、保护资产和确保业务的持续发展。 合规性:金融有助于金融机构遵守监管要求,避免因违规操作而受到处罚。 信誉维护:良好的能力可以增强客户和市场对金融机构的信任。 人工智能与机器学习 云平台上的AI和机器学习工具可以帮助金融机构构建更精准的风险预测模型,提高风的准确性。 跨地域协作 金融机构可以利用云服务实现跨地域的数据共享和协作,提高风的协同效率。 结语 金融是金融行业的核心能力之一。随着云技术的不断进步,金融机构可以更加高效、智能地进行风险管理。鼓励金融机构拥抱云技术,提升能力,以应对日益复杂的金融环境。

    26810编辑于 2025-07-29
  • 来自专栏SAMshare

    ML | 模型报告以及上线后需要监控的内容

    一个优秀的模型上线报告以及一个优秀的上线后模型监控报表,在我们日常建模中是非常的常用并且有用的,今天这个话题就来和大家聊聊怎么去制作优秀的模型上线报告以及上线后的模型监控报表,主要聊聊思路,先要有一个全局的感受 以下内容均基于自己浅薄的经历提炼的,如有纰漏,欢迎指正或补充哦,欢迎交流~ 00 Index 01 聊聊为什么要做这件事 02 标配的模型上线报告应具备哪些内容 0201 模型现状 0202 KS值与各种曲线 02 标配的模型上线报告应具备哪些内容 0201 模型现状 想要突出你模型的好,你得先分析旧模型的不好。 比如说,把目前线上模型的实际表现进行统计,如KS值、分组排序性、PSI等基础指标。 一般情况下,我们会对预测结果按照一定的阈值,进行分组,比如分为A/B/C/D/E/F共6组,越靠后就意味着越有可能是高风险客户,我们给予一定的规则进行拦截。 Reference [1] 模型监控报告系统设计 https://zhuanlan.zhihu.com/p/83025492 [2] 模型评估方法之KS曲线和ROC曲线 https://zhuanlan.zhihu.com

    4.2K21编辑于 2022-04-12
领券