「数据挖掘,也常被称为生物信息学分析,往往是研究者结合自身课题设计,利用公共数据库深入探索的一种研究方式。这类研究在2019至2022年间一度风靡,成为热门趋势。」

「随着单细胞测序数据的爆发式增长,数据挖掘的深度与广度也不断拓展,逐步迈向更高层次的整合与解读。」
「转眼已是2025年年中,我们不禁要问:当下最流行的数据挖掘都在关注什么?」
((prognosis[Title/Abstract]) AND (cancer[Title/Abstract])) AND (gene signature[Title/Abstract]) ——我们查阅了PubMed数据:2024年全年共发表了约485篇相关研究,而2025年截至目前仅有208篇。照此趋势推算,今年的数据挖掘类文章数量可能将低于去年,显示出一定的降温迹象。【但这仅仅是预后模型方向的结果哦,还有其他模型方向呢】
基于这一背景,Jimmy老师建议小编对近年来数据挖掘中常见的图表样式进行系统整理,既便于科研人员快速取用,也有助于提升图文表达的专业度与美感。
图表类型 | 主要用途 |
|---|---|
Heatmap(热图) | 显示基因表达量、样本聚类结果 |
Volcano Plot(火山图) | 可视化差异表达基因(log2FC 与 p 值) |
Box Plot / Violin Plot(箱线图/小提琴图) | 显示特定基因在不同组间表达差异 |
Bar Plot(柱状图) | 表达量汇总或差异基因数量展示 |
MA Plot | 展示平均表达量与差异变化(多用于DE分析) |
PCA / UMAP / tSNE | 展示样本间高维表达差异 |
图表类型 | 主要用途 |
|---|---|
Kaplan-Meier 曲线 | 显示高/低表达组的生存差异 |
Forest Plot(森林图) | 展示多变量Cox回归结果(HR和95%CI) |
Time-dependent ROC | 生存预测模型的时间敏感性评估 |
Nomogram(列线图) | 可视化预测模型,结合多指标评估个体风险 |
图表类型 | 主要用途 |
|---|---|
Dot Plot(气泡图) | GO/KEGG通路富集分析的显著性和基因数 |
Bar Plot(条形图) | 富集结果的通路条形表示 |
Cnet Plot / Circle Plot | 富集通路与基因的关系网络图(如clusterProfiler) |
GSEA Plot | 富集排名曲线,反映基因集上调或下调趋势 |
图表类型 | 主要用途 |
|---|---|
Risk Score 分组热图 | 展示模型基因表达在高/低风险组的分布 |
Risk Curve(风险曲线图) | 展示样本的风险评分及生存状态 |
ROC Curve(AUC曲线) | 模型预测能力评估 |
Calibration Curve | 模型拟合优度验证 |
Decision Curve Analysis | 评估模型的临床决策价值 |
图表类型 | 主要用途 |
|---|---|
PPI网络图(如STRING) | 展示蛋白间的互作关系 |
ceRNA网络 / TF-mRNA图 | 构建lncRNA/miRNA/TF调控关系 |
Sankey Diagram | 多变量通路、转化、分布关系的可视化 |
Circos图 | 染色体间基因关系或转录本变化展示 |
图表类型 | 主要用途 |
|---|---|
Bar Plot(免疫细胞比例) | 展示不同样本/组别中免疫细胞成分比例(如CIBERSORT) |
Heatmap(免疫评分) | 多种免疫评分在样本中的表现 |
Correlation Heatmap | 免疫细胞之间的相关性 |
ssGSEA图 | 展示样本在多种免疫通路的活跃程度 |
图表类型 | 主要用途 |
|---|---|
UMAP / tSNE | 降维展示细胞分群结果 |
Dot Plot(marker展示) | 特定marker在各细胞群中的表达 |
Feature Plot | 单个基因在UMAP图上的空间分布 |
Pseudotime Trajectory | 发育轨迹或分化路径展示(Monocle / Slingshot) |
Cell-Cell Communication图 | 展示配体-受体互作(如CellChat, NicheNet) |
Spatial Feature Plot | 空间位置上的基因表达可视化(空间转录组专用) |
模型/分析类型 | 主要目的与功能 | 常用方法/工具 | 常见图表/可视化 |
|---|---|---|---|
「WGCNA共表达模块分析」 | 构建共表达基因网络,筛选与性状(如临床表型、生存等)相关的模块 | WGCNA R包 | 样本聚类图、scale-free网络图、模块热图 |
「模块-性状关联分析」 | 模块特征基因与临床指标相关,寻找hub genes | cor分析、ME评分 | 模块相关性热图、相关性散点图 |
「Hub基因筛选模型」 | 提取关键模块内的Hub基因,用于后续功能验证或模型构建 | MM+GS筛选、PPI交集 | Top hub基因网络图、富集图、KM分析等 |
模型类型 | 主要目的与功能 | 常用方法/工具 | 常见图表/可视化 |
|---|---|---|---|
🧬 「诊断模型」 | 区分正常与疾病样本,或不同亚型 | LASSO-logistic、ROC分析、SVM、Random Forest | ROC曲线、AUC柱状图、heatmap、PCA图 |
⏳ 「预后模型」 | 基于基因表达/特征预测患者生存(OS、DFS等) | 单/多变量Cox回归、LASSO-Cox、Kaplan-Meier | KM曲线、森林图、风险曲线、时间ROC |
🧪 「药物敏感性模型」 | 根据基因表达或突变预测化疗/靶向药物反应 | GDSC/CTRP分析、pRRophetic、OncoPredict | Boxplot(IC50分组)、关联热图、散点图 |
🛡️ 「免疫治疗响应模型」 | 预测PD-1/PD-L1/CTLA4等免疫检查点治疗是否有效 | TIDE、IPS、TMB评估、IMvigor210验证集 | violin图、柱状图、ROC、免疫评分热图 |
🧭 「分子亚型模型」 | 对患者进行聚类分型(热/冷肿瘤,代谢型、炎症型等) | ConsensusClusterPlus、NMF、k-means | PCA、UMAP、热图、Sankey图 |
🧵 「ceRNA调控网络模型」 | 建立lncRNA–miRNA–mRNA互作机制 | miRcode、TargetScan、Cytoscape可视化 | 网络图、弦图、相关性热图 |
🔗 「调控轴模型」 | 构建特定调控路径(如TF–gene、circRNA–miRNA–mRNA) | ChEA3、JASPAR、starBase、ENCORI | 网络图、路径图、热图、功能富集图 |
🌐 「通路激活模型」 | 比较不同组别的功能通路活跃程度(炎症、代谢、细胞周期等) | ssGSEA、GSVA、PathwayScore | 气泡图、条形图、GSEA曲线 |
🔄 「时间/发育轨迹模型」 | 模拟细胞分化过程或治疗前后的动态变化 | Monocle、Slingshot、PAGA | 轨迹图、pseudotime图、热图 |
🔬 「单细胞亚群识别模型」 | 识别特定功能的细胞亚群(如耗竭T细胞、抗肿瘤中性粒细胞等) | Seurat+SingleR/CellTypist、SCENIC | UMAP/tSNE、marker dotplot |
模型方向 | 说明或示例 |
|---|---|
🧠 肿瘤干性评分模型 | 基于干性相关基因构建评分(如mRNAsi、Stemness Score) |
🔥 炎症反应评分模型 | 计算炎症通路表达或免疫细胞浸润程度(如IFN响应、IL通路) |
💊 药物重定位模型 | 结合差异基因和小分子数据库预测可逆转表型的潜在药物 |
🌡️ 风险评分系统 | 多基因线性组合形成的score,广泛用于预后/分类(如riskScore) |
🔍 临床决策模型 | 将分子特征与临床变量整合,如nomogram、Cox+临床特征模型 |
🧬 表观修饰模型 | 基于m6A/m5C等表观修饰标记的分类/预后预测模型 |