做量化我们应该如何选择数据库

子晓聊技术

发布于 2026-04-23 15:06:24

1460

文章被收录于专栏：子晓AI量化子晓AI量化

昨天有同学看了我之前写的文章，对比开源项目。说我写的不涉及数据库安装啥的，哪些开源项目基本都要折腾Mysql、redis等数据库的。

我当时回复，我这些例子更多是示例demo，实际情况数据最好从自身数据库获取，而不是依赖外部数据源。如果哪一天你依赖的外部数据源凉凉了，你的程序是不是就瘫痪了。

既然提到这，这里简单聊一聊，做量化我们应该如何选择数据库。

数据库特性与适用场景对比

SQLite
- 核心特性： 轻量级、嵌入式、零配置、单文件存储、支持 ACID 事务。
- 适用场景： 本地回测环境、小型策略研究、原型快速开发、移动端应用。
- 量化优势： 部署极其简单，无服务依赖；标准 SQL 支持，开发门槛低；适合存储低频历史数据（如清洗后的日K线数据）。
- 局限性： 并发写入能力弱；数据量超过数 TB 时性能急剧下降；无网络访问能力，不适合分布式系统。
DuckDB
- 核心特性： 嵌入式分析型数据库（OLAP）、列式存储、高性能、支持直接查询 CSV/Parquet 文件。
- 适用场景： 高性能本地数据分析、大规模回测数据探索、内存受限时的离线计算。
- 量化优势： 分析查询速度显著快于 SQLite；与 Python 生态（如 Pandas）集成好；处理大文件（如分钟线CSV）效率高。
- 局限性： 相对较新的数据库，社区和工具链不如成熟产品丰富；分布式支持和多用户并发能力较弱。
MySQL
- 核心特性： 成熟的关系型数据库（RDBMS）、支持多用户并发、强事务（ACID）、完善索引、成熟工具链。
- 适用场景： 存储结构化元数据、交易记录、资产信息、多用户协作系统。
- 量化优势： 数据一致性强，保障关键操作（如下单、结算）安全；复杂 SQL 查询和联表分析能力强；通过分库分表可扩展至中大型系统；完善的权限管理。
- 局限性： 频繁写入（如极高频率行情）时索引维护开销大；原生处理密集时间序列数据的效率不如专用时序数据库。
MongoDB
- 核心特性： 文档型 NoSQL 数据库、JSON/BSON 格式存储、模式自由、水平扩展性强。
- 适用场景： 存储非结构化/半结构化数据、另类数据、新闻舆情、社交媒体文本、策略日志。
- 量化优势： 灵活存储动态或异构数据格式；优秀的水平扩展（分片）能力，适合海量数据增长。
- 局限性： 对复杂事务支持不如关系型数据库；多表关联或复杂聚合分析效率较低；SQL 兼容性有限。
Redis
- 核心特性： 内存键值数据库、极低延迟、丰富数据结构（字符串、哈希、列表、集合、有序集合、流）、支持发布/订阅。
- 适用场景： 实时行情缓存、高频信号触发、临时状态存储（如实时持仓）、分布式锁、消息队列（Pub/Sub）。
- 量化优势： 微秒级读写性能，满足最低延迟要求；内置数据结构简化开发（如用 Sorted Set 维护行情快照）；发布订阅机制适合实时数据流处理。
- 局限性： 数据持久化非绝对可靠，有丢数据风险；数据量受限于内存成本；不适合作为长期历史数据存储。

选型策略：根据量化需求匹配

个人研究/小型回测系统：
- 建议采用： SQLite/DuckDB + Redis
- 说明： SQLite 适用于低频历史数据存储和策略元数据管理，开发简单。若需分析大量分钟/日线数据或需高性能计算，优先选用 DuckDB。Redis 用于在回测中模拟实时行情馈入或加速因子计算缓存。此组合满足本地化、低成本的开发需求。
中小规模实盘系统：
- 建议采用： MySQL + Redis + (可选时序数据库如 TimescaleDB)
- 说明： MySQL 作为主干数据库，存储结构化数据（标的代码、财务指标、交易记录、用户信息），确保关键操作的事务安全性。Redis 负责缓存高频实时行情、信号计算中间变量、系统状态（如持仓）、处理交易信号触发的低延迟要求。如果需要处理高频 tick 数据，可引入 TimescaleDB（PostgreSQL 时序扩展）或 DolphinDB 等专业时序库。
大规模实盘/多策略系统：
- 建议采用： MongoDB + Redis + 专业时序数据库 (如 InfluxDB, Kdb+)
- 说明： MongoDB 担当另类数据、策略配置、动态日志等非结构化数据的仓库，其分片能力支持海量数据扩展。专业时序数据库处理高吞吐、低延迟的毫秒级市场数据和因子计算。Redis 继续负责实时性最高层的缓存、状态维护和分布式协调。此组合满足高并发、大数据量、混合数据类型的需求。

关键决策因素

数据类型：
- 高度结构化数据（财报、资产配置、用户数据）：优选 MySQL。
- 密集时间序列数据（行情快照、tick数据）：优先考虑 Redis（最新数据缓存）+ 专业时序数据库（历史数据）。
- 非结构化/半结构化数据（新闻、文本、异构数据源）：优选 MongoDB。
性能要求：
- 微秒级实时读写（信号触发、行情缓存）：必须使用 Redis。
- 复杂分析、批量回测计算：DuckDB 或列式OLAP引擎表现更佳。
- 高频率、高并发写入：评估写入优化的引擎（如时序库）。
扩展性需求：
- 预期数据量快速增长、需要水平扩展：MongoDB 分片或 MySQL 分库分表。
- 团队协作、多用户管理：MySQL 具备成熟的权限体系。
开发与运维成本：
- 快速原型、个人项目：轻量级 SQLite 或 DuckDB 上手最快。
- 长期维护、稳定生产：成熟生态的 MySQL 或云托管数据库（如 RDS, Cloud SQL）运维成本可能更低。

典型场景示例

高频因子计算： 将最新的市场深度（Order Book）缓存在 Redis 中供实时策略计算；利用 DuckDB 加载海量历史 CSV/Parquet 数据进行因子回测和批量分析。
新闻情绪驱动策略： 收集和存储原始新闻文本及其元数据于 MongoDB；情绪分析引擎处理后，将实时情绪分数输出到 Redis，供策略模块订阅和触发交易信号。
多周期回测优化： 使用 SQLite 存储低频日线级别数据用于策略初步筛选；将需要深度分析的分钟级别数据加载到 DuckDB 进行高效运算，避免传统数据库将全部数据加载至内存的开销。

总结与实践建议

量化数据库的选择没有唯一答案，关键是根据当前和可预见的系统需求进行匹配：

优先考虑性能瓶颈点： 处理实时数据的极低延迟需求永远是 Redis 的核心阵地；而分析型查询则是 DuckDB 或 OLAP 数据库的强项。
关注数据类型和规模： 结构化数据支撑选择 MySQL，非结构化和海量数据驱动考虑 MongoDB。
渐进式演进： 项目初期使用 SQLite/DuckDB 快速验证策略逻辑，进入实盘阶段再按需评估引入 Redis、MySQL 或 时序库。当非结构化数据或日志数据占比显著上升时，积极评估 MongoDB 的价值。
混合使用是常态： 现代量化系统通常采用多种数据库协同工作（Polyglot Persistence），发挥各自专长。