首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Rust 量化统计实战系列 第 4 篇:随机变量与概率分布 · 生成、拟合与金融分布检验

Rust 量化统计实战系列 第 4 篇:随机变量与概率分布 · 生成、拟合与金融分布检验

作者头像
不吃草的牛德
发布2026-04-23 13:09:23
发布2026-04-23 13:09:23
1080
举报
文章被收录于专栏:RustRust

随机变量与概率分布:金融建模的基石与陷阱

Black-Scholes 模型假设股价服从对数正态分布。

但你有没有想过:你的数据真的符合吗?


一个被遗忘的问题

2008年9月29日,道琼斯单日暴跌778点,跌幅7%。

按照正态分布假设,这种级别的暴跌,概率约为 10^-158。

什么概念?宇宙年龄约 1.4 × 10^10 年。即使从宇宙大爆炸那一刻开始,每个交易日都观察市场,这种暴跌也不该出现一次。

但我们亲眼看到了。

而且不仅仅是2008年。1987年黑色星期一、2020年3月熔断、2024年8月全球股灾——极端事件的频率,远超正态分布的预测。

这不是偶然,这是分布假设的系统性偏差。


正态分布:美丽的谎言

高斯的优雅

正态分布太优雅了。两个参数(均值μ、标准差σ)就能刻画整个分布,数学性质完美:

  • • 线性组合保持正态
  • • 中心极限定理保驾护航
  • • 解析公式简洁优美

难怪金融学对它爱不释手。Markowitz 均值方差模型、Black-Scholes 期权定价、VaR 风险度量——全都建立在正态假设之上。

但金融市场,从来就不是教科书。

现实的打脸

来看一组数据:

市场

样本期

超额峰度

标普500

1950-2024

10.3

上证指数

1990-2024

6.8

日经225

1984-2024

8.9

恒生指数

1986-2024

12.1

超额峰度(Excess Kurtosis)= 实际峰度 - 3。

正态分布的峰度恰好等于3,所以超额峰度应该为0。

但主要市场的超额峰度普遍在5-12之间。

这意味着什么?

意味着极端事件的发生概率,被正态分布系统性低估了。峰值更高、尾部更厚——这就是著名的肥尾现象(Fat Tail)。


三大核心分布:各司其职

量化建模中,三个分布最为重要:

正态分布:理论基准

它是零假设,不是最终答案。

你的工作就是检验:数据偏离了多少?偏离的方向是什么?

t 分布:捕捉肥尾

核心参数是自由度 ν(nu):

  • • ν → ∞ 时,退化为正态分布
  • • ν = 30 以上,与正态几乎无差别
  • • ν = 5-10,典型金融数据
  • • ν < 3,极端肥尾

A股日收益率拟合出的 ν 通常在 3-6 之间。 这比正态肥得多。

对数正态分布:价格建模

股价不可能为负,但对数收益率可以。

所以模型假设:

等价于:

这就是几何布朗运动(GBM),Black-Scholes 模型的核心假设。

但问题来了:如果对数收益率本身就不是正态分布呢?


肥尾的数学本质

四阶矩的警告

分布的前四阶矩:

含义

正态分布特征

一阶矩(均值)

位置

可任意

二阶矩(方差)

离散程度

可任意

三阶矩(偏度)

不对称性

必须为0

四阶矩(峰度)

尾部厚度

必须为3

金融数据的特点:

  • 偏度通常为负:暴跌比暴涨更剧烈
  • 峰度远大于3:极端事件过于频繁

一个直观的对比:

分布

3σ以外概率

4σ以外概率

正态分布

0.27%

0.0063%

t分布(ν=5)

1.85%

0.50%

A股实际

1.67%

0.42%

正态分布把3σ以外事件的概率低估了近7倍。


分布检验:从直觉到统计

描述性统计

第一步永远是算出四个数字:

  • • 均值、标准差:位置和离散
  • • 偏度:是否对称
  • • 峰度:是否肥尾

偏度 < -0.1:左偏,暴跌更常见 峰度 > 5:显著肥尾

KS 检验:量化"像不像"

Kolmogorov-Smirnov 检验的核心思想很直观:

比较经验累积分布函数(ECDF)和理论累积分布函数(CDF)的最大距离。

统计量:

临界值(α=0.05):

如果 ,拒绝原假设——数据不服从该分布。

但这里有个陷阱:样本量越大,任何微小偏离都会被放大。

8万个样本下,KS统计量0.0623已经足以拒绝正态假设。即使数据"看起来"很接近正态。

QQ图:可视化偏离

QQ图比任何检验都直观:

  • • 横轴:理论分位数
  • • 纵轴:样本分位数
  • • 如果服从该分布,点应该落在45度直线上

解读规则:

现象

含义

点在直线上

数据服从该分布

右端上翘

右尾比理论更肥

左端下弯

左尾比理论更肥

两端同时偏离

整体肥尾

A股日收益率的QQ图,两端同时飞出——标准肥尾。


最大似然估计:找最优参数

已知数据不服从正态,那它服从什么分布?

MLE(最大似然估计)回答这个问题。

核心思想:找到一组参数,使观测数据出现的概率最大。

似然函数:

对数似然:

正态分布:解析解

正态分布的MLE有简洁的解析解:

样本均值和样本方差,就是最优估计。

t分布:数值优化

t分布没有解析解,需要数值方法。

但有一个重要性质:拟合出的自由度ν直接告诉你肥尾程度。

  • • ν > 30:接近正态
  • • ν = 5-10:典型金融数据
  • • ν < 5:极端肥尾

对VaR的实际影响

理论讲完了,实际影响有多大?

VaR(Value at Risk)是风险管理的核心指标:在给定置信度下,最大可能损失是多少?

假设95%置信度,比较两种分布:

指标

正态分布

t分布(ν=5)

差异

VaR

-2.50%

-2.81%

12.4%

3σ事件概率

0.27%

1.85%

7倍

用正态假设算VaR,风险准备金少准备12.4%。

在极端行情下,这12.4%的差额可能就是生与死的区别。


工程实现的取舍

Rust的优势

分布计算涉及大量循环和数学运算,Rust的零成本抽象和SIMD优化能显著提升性能:

  • • 正态分布PDF/CDF:向量化计算
  • • t分布拟合:并行网格搜索
  • • KS检验:排序+单次遍历

核心crate:rand(随机数)、rand_distr(分布采样)、statrs(统计函数)、polars(向量化计算)

实践建议

  1. 1. 先算描述性统计:偏度和峰度是第一道防线
  2. 2. QQ图必画:任何拟合结果都要可视化验证
  3. 3. 多个分布对比:正态、t、广义双曲线分布,选拟合最好的
  4. 4. 警惕样本量陷阱:大样本下KS检验过于敏感,结合QQ图判断

核心要点

三个认知升级:

  1. 1. 正态分布是基准,不是真相——金融数据几乎总是肥尾的
  2. 2. t分布的自由度ν是肥尾的度量——ν < 5 就要高度警惕
  3. 3. 分布假设直接影响风险指标——VaR可能被低估10%以上

三个实践工具:

  1. 1. 描述性统计——偏度、峰度是第一道预警
  2. 2. KS检验——给出统计意义上的判断
  3. 3. QQ图——直观展示偏离位置和方向

肥尾不是bug,是市场的feature。

承认它、量化它、修正模型——而不是假装它不存在。


下一篇:蒙特卡洛模拟——当解析解失效时,如何用随机性破解复杂定价。



本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Rust火箭工坊 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 随机变量与概率分布:金融建模的基石与陷阱
    • 一个被遗忘的问题
    • 正态分布:美丽的谎言
      • 高斯的优雅
      • 现实的打脸
    • 三大核心分布:各司其职
      • 正态分布:理论基准
      • t 分布:捕捉肥尾
      • 对数正态分布:价格建模
    • 肥尾的数学本质
      • 四阶矩的警告
    • 分布检验:从直觉到统计
      • 描述性统计
      • KS 检验:量化"像不像"
      • QQ图:可视化偏离
    • 最大似然估计:找最优参数
      • 正态分布:解析解
      • t分布:数值优化
    • 对VaR的实际影响
    • 工程实现的取舍
      • Rust的优势
      • 实践建议
    • 核心要点
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档