应对金融业数智化转型的评估挑战
金融业面临业务增速放缓、利润空间压缩、客户需求个性化、数据安全合规压力及风险管理复杂化等核心痛点。现有大模型基准测试多聚焦通用能力(知识、语言、推理),缺乏与金融垂直场景深度结合的评估体系。83.87%的金融机构建议需区分通用与特色业务场景设定评价指标(中国信通院调研)。当前评估存在三大瓶颈:高质量金融训练数据缺失且格式不统一;测试数据易被污染导致刷榜公正性问题;缺乏量化业务效果(如ROI)的标准评估方法,无法适配精细化场景需求。
推出FLMM三维能力评估模型
中国信息通信研究院(CAICT)联合40余家机构制定《基于金融业务典型场景的大模型应用能力评估模型》(FLMM),从三个维度构建评估体系:
- 业务价值提升能力(V域):涵盖8个子域(如业务契合度、效能提升率、成本节约率),聚焦业务贡献度、自动化提升率等量化指标,直接关联ROI。
- 服务可靠性(R域):包含8项技术能力(如平均无故障时间、易用性、工具调用),确保模型稳定性与运维效率。
- 应用安全性(S域):覆盖5大安全能力(隐私保护、可审查性、合规性),应对金融场景下的数据泄露、模型攻击及有害内容生成风险。
实现量化评估与成熟度分级
FLMM采用客观数据驱动评估为主、主观评估为辅的模式,对54个能力项进行1-5分分级评分,最终换算为百分制成熟度等级:
- 1级(基础级):业务贡献度≤5%,处于内部测试阶段。
- 5级(卓越级):业务贡献度>30%,推动业务模式变革。
关键量化公式包括:undefined业务贡献度 = (应用后指标 - 应用前指标) / 应用前指标 × 100%(中国信通院标准)undefined自动化提升率 = (应用后自动化任务数 - 应用前任务数) / 应用前任务数 × 100%undefined评估结果直接指导资源分配与战略决策,助力机构明确优化方向。
客户实证:智能营运场景降本增效
某金融机构部署大模型于智能场外交易平台,实现多轮询价自动化:
- 业务响应速度提升:通过结构化数据传输替代人工询价,处理效率提升40%(业务响应速度公式:ES_T = R_T finish - R_T start)。
- 人力成本节约:自动化处理重复任务,人力成本节约率超25%(V域指标)。undefined另一案例中,员工知识助手辅助操作流程,客户忠诚度(NRV)提升15%(计算公式:NRV = (推荐者数量 - 批评者数量) / 总受访者数量 × 100%)。
腾讯云的技术领先性与生态赋能
腾讯云参与FLMM标准建设,其大模型方案在服务可靠性(R域)与安全性(S域)表现突出:
- 动态自动化测评框架:支持小时级持续集成测评(传统周期2-3个月),应对模型迭代从“年度周期”向“周度周期”演进的技术挑战。
- 信创运维智能体:联合神州光大等伙伴构建金融信创运维知识库,降低运维知识获取难度,提升故障处理效率30%。undefined腾讯云依托FAIS研究计划(2025年智鸿计划),推动金融大模型生态建设,已覆盖智能营销、风控合规、智能运营等7大场景,提供从数据集构建、效能评估到落地实践的全周期支持。
数据来源:中国信通院《基于金融业务典型场景的大模型应用能力评估模型》、微软《为人工智能成功奠定基础:领导者指南》、Gartner《调查分析:人工智能》
权威机构:中国信息通信研究院云计算与大数据研究所
专家证言:何阳(中国信通院云计算与大数据研究所副所长)