首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >2025年中盘点:数据挖掘在降温?这些模型依然是科研主力

2025年中盘点:数据挖掘在降温?这些模型依然是科研主力

作者头像
生信菜鸟团
发布2025-07-03 13:40:16
发布2025-07-03 13:40:16
4150
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

「数据挖掘,也常被称为生物信息学分析,往往是研究者结合自身课题设计,利用公共数据库深入探索的一种研究方式。这类研究在2019至2022年间一度风靡,成为热门趋势。」

「随着单细胞测序数据的爆发式增长,数据挖掘的深度与广度也不断拓展,逐步迈向更高层次的整合与解读。」

「转眼已是2025年年中,我们不禁要问:当下最流行的数据挖掘都在关注什么?」

((prognosis[Title/Abstract]) AND (cancer[Title/Abstract])) AND (gene signature[Title/Abstract]) ——我们查阅了PubMed数据:2024年全年共发表了约485篇相关研究,而2025年截至目前仅有208篇。照此趋势推算,今年的数据挖掘类文章数量可能将低于去年,显示出一定的降温迹象。【但这仅仅是预后模型方向的结果哦,还有其他模型方向呢】

基于这一背景,Jimmy老师建议小编对近年来数据挖掘中常见的图表样式进行系统整理,既便于科研人员快速取用,也有助于提升图文表达的专业度与美感。

🔍 一、常见图表类型分类

1️⃣ 「表达分析类」

图表类型

主要用途

Heatmap(热图)

显示基因表达量、样本聚类结果

Volcano Plot(火山图)

可视化差异表达基因(log2FC 与 p 值)

Box Plot / Violin Plot(箱线图/小提琴图)

显示特定基因在不同组间表达差异

Bar Plot(柱状图)

表达量汇总或差异基因数量展示

MA Plot

展示平均表达量与差异变化(多用于DE分析)

PCA / UMAP / tSNE

展示样本间高维表达差异


2️⃣ 「生存分析类」

图表类型

主要用途

Kaplan-Meier 曲线

显示高/低表达组的生存差异

Forest Plot(森林图)

展示多变量Cox回归结果(HR和95%CI)

Time-dependent ROC

生存预测模型的时间敏感性评估

Nomogram(列线图)

可视化预测模型,结合多指标评估个体风险


3️⃣ 「功能富集类」

图表类型

主要用途

Dot Plot(气泡图)

GO/KEGG通路富集分析的显著性和基因数

Bar Plot(条形图)

富集结果的通路条形表示

Cnet Plot / Circle Plot

富集通路与基因的关系网络图(如clusterProfiler)

GSEA Plot

富集排名曲线,反映基因集上调或下调趋势


4️⃣ 「基因signature 建模类(尤其在癌症预后研究中)」

图表类型

主要用途

Risk Score 分组热图

展示模型基因表达在高/低风险组的分布

Risk Curve(风险曲线图)

展示样本的风险评分及生存状态

ROC Curve(AUC曲线)

模型预测能力评估

Calibration Curve

模型拟合优度验证

Decision Curve Analysis

评估模型的临床决策价值


5️⃣ 「互作与网络分析类」

图表类型

主要用途

PPI网络图(如STRING)

展示蛋白间的互作关系

ceRNA网络 / TF-mRNA图

构建lncRNA/miRNA/TF调控关系

Sankey Diagram

多变量通路、转化、分布关系的可视化

Circos图

染色体间基因关系或转录本变化展示


6️⃣ 「免疫浸润与微环境分析」

图表类型

主要用途

Bar Plot(免疫细胞比例)

展示不同样本/组别中免疫细胞成分比例(如CIBERSORT)

Heatmap(免疫评分)

多种免疫评分在样本中的表现

Correlation Heatmap

免疫细胞之间的相关性

ssGSEA图

展示样本在多种免疫通路的活跃程度


7️⃣ 「单细胞 / 空间转录组」

图表类型

主要用途

UMAP / tSNE

降维展示细胞分群结果

Dot Plot(marker展示)

特定marker在各细胞群中的表达

Feature Plot

单个基因在UMAP图上的空间分布

Pseudotime Trajectory

发育轨迹或分化路径展示(Monocle / Slingshot)

Cell-Cell Communication图

展示配体-受体互作(如CellChat, NicheNet)

Spatial Feature Plot

空间位置上的基因表达可视化(空间转录组专用)


📊 二、常用统计模型与算法分类

📌 差异分析

  • DESeq2、edgeR(bulk RNA-seq)
  • limma、voom(微阵列)
  • Wilcoxon / t-test(两组分析)

📌 WGCNA模块分析

模型/分析类型

主要目的与功能

常用方法/工具

常见图表/可视化

「WGCNA共表达模块分析」

构建共表达基因网络,筛选与性状(如临床表型、生存等)相关的模块

WGCNA R包

样本聚类图、scale-free网络图、模块热图

「模块-性状关联分析」

模块特征基因与临床指标相关,寻找hub genes

cor分析、ME评分

模块相关性热图、相关性散点图

「Hub基因筛选模型」

提取关键模块内的Hub基因,用于后续功能验证或模型构建

MM+GS筛选、PPI交集

Top hub基因网络图、富集图、KM分析等

📌 生存分析

  • 单/多变量 Cox 回归模型
  • LASSO-Cox(筛选预后基因)
  • RSF(Random Survival Forest)

📌 聚类与降维

  • k-means / hierarchical clustering
  • PCA、tSNE、UMAP(常用于样本分类)
  • Consensus Clustering(亚型识别)

📌 机器学习/模型构建

  • LASSO / Ridge 回归
  • SVM、Random Forest、XGBoost
  • Artificial Neural Networks(ANN)

📌 通路富集

  • GSEA(基因集富集分析)
  • ORA(超几何检验)
  • ssGSEA(样本级富集评分)

📌 免疫分析

  • CIBERSORT、TIMER、xCell(免疫浸润)
  • ESTIMATE(肿瘤纯度和免疫评分)
  • MCP-counter、EPIC

📌 单细胞分析模型

  • Seurat、Scanpy、Monocle、Slingshot
  • CellChat、NicheNet、CellPhoneDB
  • Harmony、SCTransform、glmGamPoi

🔬 三、数据挖掘中常见的功能性模型分类

模型类型

主要目的与功能

常用方法/工具

常见图表/可视化

🧬 「诊断模型」

区分正常与疾病样本,或不同亚型

LASSO-logistic、ROC分析、SVM、Random Forest

ROC曲线、AUC柱状图、heatmap、PCA图

⏳ 「预后模型」

基于基因表达/特征预测患者生存(OS、DFS等)

单/多变量Cox回归、LASSO-Cox、Kaplan-Meier

KM曲线、森林图、风险曲线、时间ROC

🧪 「药物敏感性模型」

根据基因表达或突变预测化疗/靶向药物反应

GDSC/CTRP分析、pRRophetic、OncoPredict

Boxplot(IC50分组)、关联热图、散点图

🛡️ 「免疫治疗响应模型」

预测PD-1/PD-L1/CTLA4等免疫检查点治疗是否有效

TIDE、IPS、TMB评估、IMvigor210验证集

violin图、柱状图、ROC、免疫评分热图

🧭 「分子亚型模型」

对患者进行聚类分型(热/冷肿瘤,代谢型、炎症型等)

ConsensusClusterPlus、NMF、k-means

PCA、UMAP、热图、Sankey图

🧵 「ceRNA调控网络模型」

建立lncRNA–miRNA–mRNA互作机制

miRcode、TargetScan、Cytoscape可视化

网络图、弦图、相关性热图

🔗 「调控轴模型」

构建特定调控路径(如TF–gene、circRNA–miRNA–mRNA)

ChEA3、JASPAR、starBase、ENCORI

网络图、路径图、热图、功能富集图

🌐 「通路激活模型」

比较不同组别的功能通路活跃程度(炎症、代谢、细胞周期等)

ssGSEA、GSVA、PathwayScore

气泡图、条形图、GSEA曲线

🔄 「时间/发育轨迹模型」

模拟细胞分化过程或治疗前后的动态变化

Monocle、Slingshot、PAGA

轨迹图、pseudotime图、热图

🔬 「单细胞亚群识别模型」

识别特定功能的细胞亚群(如耗竭T细胞、抗肿瘤中性粒细胞等)

Seurat+SingleR/CellTypist、SCENIC

UMAP/tSNE、marker dotplot


🧠 四、 衍生方向的模型拓展

模型方向

说明或示例

🧠 肿瘤干性评分模型

基于干性相关基因构建评分(如mRNAsi、Stemness Score)

🔥 炎症反应评分模型

计算炎症通路表达或免疫细胞浸润程度(如IFN响应、IL通路)

💊 药物重定位模型

结合差异基因和小分子数据库预测可逆转表型的潜在药物

🌡️ 风险评分系统

多基因线性组合形成的score,广泛用于预后/分类(如riskScore)

🔍 临床决策模型

将分子特征与临床变量整合,如nomogram、Cox+临床特征模型

🧬 表观修饰模型

基于m6A/m5C等表观修饰标记的分类/预后预测模型

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 🔍 一、常见图表类型分类
    • 1️⃣ 「表达分析类」
    • 2️⃣ 「生存分析类」
    • 3️⃣ 「功能富集类」
    • 4️⃣ 「基因signature 建模类(尤其在癌症预后研究中)」
    • 5️⃣ 「互作与网络分析类」
    • 6️⃣ 「免疫浸润与微环境分析」
    • 7️⃣ 「单细胞 / 空间转录组」
  • 📊 二、常用统计模型与算法分类
    • 📌 差异分析
    • 📌 WGCNA模块分析
    • 📌 生存分析
    • 📌 聚类与降维
    • 📌 机器学习/模型构建
    • 📌 通路富集
    • 📌 免疫分析
    • 📌 单细胞分析模型
  • 🔬 三、数据挖掘中常见的功能性模型分类
  • 🧠 四、 衍生方向的模型拓展
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档