Rust 量化统计实战系列第 4 篇：随机变量与概率分布 · 生成、拟合与金融分布检验

不吃草的牛德

发布于 2026-04-23 13:09:23

1080

文章被收录于专栏：RustRust

随机变量与概率分布：金融建模的基石与陷阱

Black-Scholes 模型假设股价服从对数正态分布。

但你有没有想过：你的数据真的符合吗？

一个被遗忘的问题

2008年9月29日，道琼斯单日暴跌778点，跌幅7%。

按照正态分布假设，这种级别的暴跌，概率约为 10^-158。

什么概念？宇宙年龄约 1.4 × 10^10 年。即使从宇宙大爆炸那一刻开始，每个交易日都观察市场，这种暴跌也不该出现一次。

但我们亲眼看到了。

而且不仅仅是2008年。1987年黑色星期一、2020年3月熔断、2024年8月全球股灾——极端事件的频率，远超正态分布的预测。

这不是偶然，这是分布假设的系统性偏差。

正态分布：美丽的谎言

高斯的优雅

正态分布太优雅了。两个参数（均值μ、标准差σ）就能刻画整个分布，数学性质完美：

• 线性组合保持正态
• 中心极限定理保驾护航
• 解析公式简洁优美

难怪金融学对它爱不释手。Markowitz 均值方差模型、Black-Scholes 期权定价、VaR 风险度量——全都建立在正态假设之上。

但金融市场，从来就不是教科书。

现实的打脸

来看一组数据：

市场	样本期	超额峰度
标普500	1950-2024	10.3
上证指数	1990-2024	6.8
日经225	1984-2024	8.9
恒生指数	1986-2024	12.1

超额峰度（Excess Kurtosis）= 实际峰度 - 3。

正态分布的峰度恰好等于3，所以超额峰度应该为0。

但主要市场的超额峰度普遍在5-12之间。

这意味着什么？

意味着极端事件的发生概率，被正态分布系统性低估了。峰值更高、尾部更厚——这就是著名的肥尾现象（Fat Tail）。

三大核心分布：各司其职

量化建模中，三个分布最为重要：

正态分布：理论基准

它是零假设，不是最终答案。

你的工作就是检验：数据偏离了多少？偏离的方向是什么？

t 分布：捕捉肥尾

核心参数是自由度 ν（nu）：

• ν → ∞ 时，退化为正态分布
• ν = 30 以上，与正态几乎无差别
• ν = 5-10，典型金融数据
• ν < 3，极端肥尾

A股日收益率拟合出的 ν 通常在 3-6 之间。 这比正态肥得多。

对数正态分布：价格建模

股价不可能为负，但对数收益率可以。

所以模型假设：

等价于：

这就是几何布朗运动（GBM），Black-Scholes 模型的核心假设。

但问题来了：如果对数收益率本身就不是正态分布呢？

肥尾的数学本质

四阶矩的警告

分布的前四阶矩：

矩	含义	正态分布特征
一阶矩（均值）	位置	可任意
二阶矩（方差）	离散程度	可任意
三阶矩（偏度）	不对称性	必须为0
四阶矩（峰度）	尾部厚度	必须为3

金融数据的特点：

• 偏度通常为负：暴跌比暴涨更剧烈
• 峰度远大于3：极端事件过于频繁

一个直观的对比：

分布	3σ以外概率	4σ以外概率
正态分布	0.27%	0.0063%
t分布(ν=5)	1.85%	0.50%
A股实际	1.67%	0.42%

正态分布把3σ以外事件的概率低估了近7倍。

分布检验：从直觉到统计

描述性统计

第一步永远是算出四个数字：

• 均值、标准差：位置和离散
• 偏度：是否对称
• 峰度：是否肥尾

偏度 < -0.1：左偏，暴跌更常见峰度 > 5：显著肥尾

KS 检验：量化"像不像"

Kolmogorov-Smirnov 检验的核心思想很直观：

比较经验累积分布函数（ECDF）和理论累积分布函数（CDF）的最大距离。

统计量：

临界值（α=0.05）：

如果，拒绝原假设——数据不服从该分布。

但这里有个陷阱：样本量越大，任何微小偏离都会被放大。

8万个样本下，KS统计量0.0623已经足以拒绝正态假设。即使数据"看起来"很接近正态。

QQ图：可视化偏离

QQ图比任何检验都直观：

• 横轴：理论分位数
• 纵轴：样本分位数
• 如果服从该分布，点应该落在45度直线上

解读规则：

现象	含义
点在直线上	数据服从该分布
右端上翘	右尾比理论更肥
左端下弯	左尾比理论更肥
两端同时偏离	整体肥尾

A股日收益率的QQ图，两端同时飞出——标准肥尾。

最大似然估计：找最优参数

已知数据不服从正态，那它服从什么分布？

MLE（最大似然估计）回答这个问题。

核心思想：找到一组参数，使观测数据出现的概率最大。

似然函数：

对数似然：

正态分布：解析解

正态分布的MLE有简洁的解析解：

样本均值和样本方差，就是最优估计。

t分布：数值优化

t分布没有解析解，需要数值方法。

但有一个重要性质：拟合出的自由度ν直接告诉你肥尾程度。

• ν > 30：接近正态
• ν = 5-10：典型金融数据
• ν < 5：极端肥尾

对VaR的实际影响

理论讲完了，实际影响有多大？

VaR（Value at Risk）是风险管理的核心指标：在给定置信度下，最大可能损失是多少？

假设95%置信度，比较两种分布：

指标	正态分布	t分布(ν=5)	差异
VaR	-2.50%	-2.81%	12.4%
3σ事件概率	0.27%	1.85%	7倍

用正态假设算VaR，风险准备金少准备12.4%。

在极端行情下，这12.4%的差额可能就是生与死的区别。

工程实现的取舍

Rust的优势

分布计算涉及大量循环和数学运算，Rust的零成本抽象和SIMD优化能显著提升性能：

• 正态分布PDF/CDF：向量化计算
• t分布拟合：并行网格搜索
• KS检验：排序+单次遍历

核心crate：rand（随机数）、rand_distr（分布采样）、statrs（统计函数）、polars（向量化计算）

实践建议

1. 先算描述性统计：偏度和峰度是第一道防线
2. QQ图必画：任何拟合结果都要可视化验证
3. 多个分布对比：正态、t、广义双曲线分布，选拟合最好的
4. 警惕样本量陷阱：大样本下KS检验过于敏感，结合QQ图判断

核心要点

三个认知升级：

1. 正态分布是基准，不是真相——金融数据几乎总是肥尾的
2. t分布的自由度ν是肥尾的度量——ν < 5 就要高度警惕
3. 分布假设直接影响风险指标——VaR可能被低估10%以上

三个实践工具：

1. 描述性统计——偏度、峰度是第一道预警
2. KS检验——给出统计意义上的判断
3. QQ图——直观展示偏离位置和方向

肥尾不是bug，是市场的feature。

承认它、量化它、修正模型——而不是假装它不存在。

下一篇：蒙特卡洛模拟——当解析解失效时，如何用随机性破解复杂定价。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-04-19，如有侵权请联系 cloudcommunity@tencent.com 删除

数据

本文分享自 Rust火箭工坊微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度