首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏医学和生信笔记

    机器学习和临床预测模型公开课全文及回放

    周五公开课文字内容以及录屏回放。 视频已上传到b站,我的b站账号:阿越就是我 本文目录: 从医学统计到机器学习 机器学习在临床中的应用 机器学习和临床预测模型有什么关系? 唯一不同且是最重要的一点:临床预测模型更加注重结合临床背景进行解释。 生信常见的各种数据库id, hgnc gene symbol, entrez id, ensembl id等?中心法则?表观遗传涉及哪些内容?什么是甲基化?单核苷酸多态性SNP, 拷贝数变异CVN? 模型的解释:临床预测模型必须不能脱离临床,单纯的数字游戏没有任何意义。 生信数据挖掘文章还有一个特点:紧跟热点 铁死亡、铜死亡、细胞凋亡、内质网应激、肿瘤干性、缺氧、m6A、上皮-间质转化、凝血、血管生成、......

    1.9K32编辑于 2023-02-14
  • 来自专栏医学数据库百科

    临床相关突变查询数据库

    写在前面 越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了。 ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多,而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。 通过其名字我们就知道这个是一个简易版的Clinvar数据库。 输入 数据库的输入很简单,我们可以数据疾病;基因名; 突变等。都可以。 我这里输入gastric cancer。 另外数据库也提供了下载的功能。我们点击Show Table就可以看到其下载结果的地方了。 写在后面 以上就是这个数据的所有功能的。输入关键词—界面友好的查看结果。是不是很简单。 一直再说这类汇总其他数据库的资源,最怕的资源更新慢的问题。不过看这个数据库还是经常更新的。所以可以放心使用的

    1.3K40发布于 2021-11-18
  • 来自专栏科研猫

    临床样本组学研究Day6 : 临床样本的代谢组学研究

    数据呈现:Be和Pro可以很好地区分HCC 与肝炎和肝硬化,其联合诊断的灵敏度和特异性要远优于目前临床使用的肝癌诊断指标AFP,尤其在AFP表达阴性的HCC患者中,诊断准确性为92%,具有很好的临床应用前景 启示:无论在做代谢组学还是蛋白质组学,当筛选到差异代谢物/蛋白质时,一定要和传统临床指标/传统危险因素进行校正。

    1.7K31编辑于 2022-04-09
  • 来自专栏生信技能树

    TCGA数据库临床资料官方大全

    因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。 看起来是乱码,但的确是真实的下载地址:https://api.gdc.cancer.gov/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81 题外话:关于不同数据源的TCGA临床资料冲突的讨论

    5.3K41发布于 2019-06-15
  • 来自专栏科研猫

    临床样本组学研究Day6 : 临床样本的单细胞转录组测序

    今天我们就来聊聊基于临床样本的单细胞转录组测序。 在组织中分选特定细胞,组织样本的处理和细胞分选技术非常重要(技术注意事项可以多向测序公司咨询); 3.对于利用临床样本纯单细胞测序研究来说,要重视单细胞测序数据分析算法的个性化,利用各种不同巧妙的算法尽可能多挖掘测序数据中隐藏的信息

    1.7K21编辑于 2022-04-09
  • 来自专栏用户7627119的专栏

    公开数据单细胞挖掘6+分思路

    然后结合弹性网络回归和KM分析在不同肿瘤类型中确定了155个预后相关基因,并构建了癌症特异性预后免疫评分模型,最后使用了五种肿瘤的免疫检查点封锁疗法的公开数据进行模型验证。 Immune Checkpoint Therapies 实体瘤中癌症特异性免疫预后特征及其与免疫检查点治疗的关系 http://mpvideo.qpic.cn/0bf2n4bvuaad3mahbugq6vpvg36dljxqgwqa.f10002 接下来,作者在独立的患者队列中验证了模型,使用相同的公式计算了GBM患者在Repository of Molecular Brain Neoplasia Data (Rembrandt)(一个大型公共脑瘤数据库数据 作者在已发表的文献中收集了十个公开的癌症患者数据集(抗PD1/PDL1治疗的黑色素瘤,膀胱尿路上皮癌,肾细胞癌,胃癌和非小细胞肺癌)。 最后,作者验证了癌症特异性免疫评分模型(针对黑色素瘤,肾癌,膀胱癌,胃癌和非小细胞肺癌)的重要性,使用皮肤黑色素瘤SKCM特异性和肾透明细胞癌KIRC特异性免疫评分,去预测ImVigor临床试验数据集中抗

    71430编辑于 2022-09-21
  • 来自专栏生信宝典

    临床基因组分析相关数据库汇总

    一、人群SNV频率数据库 数据库名称 网站 简介 dbSNP https://www.ncbi.nlm.nih.gov/snp/ dbSNP 包含人类单核苷酸变异、微卫星和小片段插入和缺失,以及常见变异和临床突变的发表 ClinGen https://www.clinicalgenome.org/ ClinGen是美国国立卫生研究院(NIH)资助的数据库资源,用于精准医学,研究基因和变异的临床相关性。 三、表型数据库 数据库名称 网站 简介 GeneReviews http://www.genereviews.org/ GeneReviews 是为忙碌的临床医生提供的国际即时护理资源,以标准化的期刊样式格式提供与遗传病相关的临床相关和医学上可操作的信息 DECIPHER https://www.deciphergenomics.org/ 使用Ensemble基因组浏览器,将基因芯片数据和临床表型进行关联,便于临床医生和研究人员使用的细胞分子遗传学数据库 七、其他数据库 数据库名称 网站 简介 Pharmgkb https://www.pharmgkb.org/ PharmGKB是一个综合资源,为临床医生和研究人员管理有关基因变异对药物反应影响的知识。

    2.7K20编辑于 2022-01-19
  • 来自专栏医学和生信笔记

    1行代码提取6种TCGA表达矩阵和临床信息

    “医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。 脚本已上传到QQ群,需要的小伙伴加群下载即可~ 只需要1行代码就可以获取分别获取mRNA和lncRNA的counts/fpkm/tpm总计6种类型类型的表达矩阵以及临床信息,表达矩阵是标准形式,行是基因 完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息: 完成后会多出一个文件夹 output_expr文件夹里面就是提取好的信息: 提取好的表达矩阵和临床信息 TCGA-LUSC_expr.rdata :原始的se对象,所有信息都是从这里面提取的; TCGA-LUSC_clinical.rdata:TCGA-LUSC的临床信息; TCGA-LUSC_lncRNA_expr_counts.rdata:lncRNA fpkm矩阵; TCGA-LUSC_mRNA_expr_tpm.rdata:mRNA的tpm矩阵; 表达矩阵示例: lncRNA的counts矩阵 mRNA的counts矩阵 mRNA的tpm矩阵 临床信息

    1.2K10编辑于 2022-11-15
  • 来自专栏临床预测模型

    临床预测模型概述6-统计模型实操-Lasso回归

    基础知识回顾:tps://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Qhttps://mp.weixin.qq.com/s/UVR6ZHCwhWqTfFBmPYPV9Qhttps 通常该方法用于筛选自变量(大量的基因数据/临床参数等),有时候也可以用于获取建模前自变量的系数。 6. 绘制路径图:● 可以绘制系数路径图或交叉验证曲线来直观地查看模型在不同λ值下的表现,从而更好地选择合适的λ值。4. 0,]nrow(coef)lassoGene = coef$genelassoGene# [1] "NLRC4" "PJVK" "CASP8" "BAK1" "GSDME" "NLRP6" ayueme.github.io/R_clinical_model/feature-selection_lasso.html3、生信小白要知道:https://mp.weixin.qq.com/s/kSrr6regfAtX4Bw6gSvmgw

    94310编辑于 2024-08-09
  • 来自专栏从百草园到三味书屋

    公开重症监护数据库MIMIC代码仓库介绍

    ; EHR二次分析需要临床专家和数据科学家的合作,在EHR数据库上推导或者定义一些概念是需要资源的,对于没有特别强的临床背景或者数据科学技能的人来说巨大障碍; 该文介绍MIMIC代码仓库,介绍与重症相关概念的导出以及相关假设条件等 ; 公开数据已经逐渐有了,公开相应的数据代码同样重要。 疾病严重程度评分Severity of illness scores 在回顾性数据库中难以计算 大多都是在前瞻性实验中获取的; 常规收集的数据缺相应元素。 SOFA), Logistic Organ Dysfunction system(LODS) 治疗时间Time of treatment 由于数据获取的限制,许多药物和确切的治疗时间无法得出,需要根据临床经验识别其他可替代的数据 结论 公开数据库的案例已经不少,为了让研究更加透明,也需要公开相应数据分析和数据处理的代码 补充 代码库地址:https://github.com/MIT-LCP/mimic-code 之前以MIMIC-III

    2.1K10编辑于 2023-03-09
  • 来自专栏脑电信号科研科普

    EEG脑电公开数据库大盘点

    对于刚进入EEG领域的同学来说,利用网上公开的EEG数据库练练手,顺便发表一些论文是个不错的选择。 公开数据库对于促进科学研究的快速发展意义重大,公开数据的建立可以让全世界各国的领域内研究者对某些问题进行更深入更全面的研究。 EEG/ MEG/MRI/ fNIRS公开数据库大盘点》),但最近笔者又搜罗了不少EEG的公开数据库网站,因此在这篇推文里笔者把目前的EEG公开数据库进行了较为全面的总结,希望对大家有所帮助。 (NIH)的主持下成立,其提供大量的生理和临床数据以及相关的开源软件来。 网址:https://bcmi.sjtu.edu.cn/~seed/index.html 21.HCI Tagging database 30名被试的EEG数据,被试观看电影和图片,同时使用6个摄像机、

    4.2K20编辑于 2022-05-02
  • 来自专栏深度学习与python

    Pinecone 无服务器向量数据库公开预览

    作者 | Renato Losio 译者 | 明知山 策划 | 丁晓昀 最近,Pinecone 宣布了其新的无服务器向量数据库的公共预览,旨在降低基础设施管理成本,同时提高生成式人工智能应用的准确性 根据向量数据库专家的说法,读、写和存储的分离显着降低了各种规模和类型的工作负载的开销。多租户计算层使用新的索引和检索算法实现了按需检索,从而实现了对 blob 存储进行内存高效的向量搜索。 在“重新构想向量数据库,实现知识丰富的 AI”一文中,Pinecone 工程副总裁 Ram Sriharsha 描述了团队为何以及如何重建 Pinecone,并讨论了向量数据库的重要作用: LLM 很容易产生幻觉 Ampt 的 CEO 兼创始人 Jeremy Daly 则表示: 它被吹捧为 "遏制 AI 幻觉的突破性进展",但考虑到其他主要数据库也正在添加向量功能,分析人士表示,其接受者可能会很少。 Pinecone 并不是市场上唯一支持无服务器向量存储的参与者,其他数据库和数据平台供应商也提供了支持向量的无服务器数据库,包括 MongoDB 和 Snowflake。

    64810编辑于 2024-02-29
  • 来自专栏脑电信号科研科普

    EEG MEGMRI fNIRS公开数据库大盘点

    《本文同步发布于“脑之说”微信公众号,欢迎搜索关注~~》   公开数据库对于促进科学研究的快速发展意义重大,公开数据的建立可以让全世界各国的领域内研究者对某些问题进行更深入更全面的研究。 此外,我们个人同样可以利用各类脑科学公开数据库方便地进行各种研究。 笔者在这里较为全面地盘点目前免费的EEG/MEG/MRI/ fNIR公开数据库,希望对大家的研究有所帮助。 网址:http://myconnectome.org/wp/ 中国AD临床前期联盟多中心认知下降纵向研究数据库   中国AD临床前期联盟多中心认知下降纵向研究数据库(SILCODE)是由中国国家老年疾病临床医学研究中心 (NDAR),与精神疾病相关的国家临床试验数据库(NDCT),研究领域标准数据库(RDoC db)和NIH小儿MRI数据存储库等。 从内容上来说,该数据库数据内容丰富,包含临床、影像学,基因组等方面的数据。

    4.1K01发布于 2020-11-18
  • 来自专栏科研菌

    如何用好公开数据库多种组学数据?

    图4.胰腺癌中DNA拷贝数变异与甲基化异常频率之间的相关性 5.胰腺癌亚群的临床病理特征和免疫评分 作者进一步分析了iC1和iC2 / iC3 / iC4亚组之间的临床病理信息。 表3. iC1和iC2 / iC3 / iC4亚组之间临床特征的比较 6.胰腺癌亚组分子特征的比较 为了分析四个亚组之间的不同分子特征,作者分别计算了iC1和iC2 / iC3 / iC4之间的差异表达基因 接着作GO富集分析发现,T细胞活化,淋巴细胞活化调节,免疫应答调节细胞表面受体信号传导途径等显著富集(图6D)。 图6A:iC2和iC4的CNV异常显著高于iC1和iC3,这表明CNV可能对胰腺癌的预后有一定影响; 图6B:但是,未观察到甲基化的显著差异。 使用来自GEO数据库的外部GSE21501和GSE71729数据集来验证结果。 最后,在外部和内部数据集中选择了三个与胰腺癌预后相关的基因(GRAP2,ICAM3和A2ML1)。

    2.2K11发布于 2020-08-07
  • 来自专栏临床预测模型

    临床预测模型概述6-统计模型实操-单多因素Logistic回归

    在各种临床/基础数据分析中,经常需要分析疾病/状态与各种影响/危险因素之间的定量关系,如鼻咽癌的发生于EB病毒定量、年龄、不同饮食习惯等因素之间的关系,而结局变量通常是二分类的,因此这种方法是研究者必须学会的方法之一 16 14 8 15 8 5 15 11 16 9 # 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 90 # 17 13 10 6 0.761 0.447 # 5 age>60 0.346 0.326 1.06 0.289 # 6 6、多因素logstic回归筛选自变量# 在用forward/backward/both方法的时候需要去除NA值! N race stage T df logLik AICc delta weight# Backward -1.524 + 30.84 + 6

    97000编辑于 2024-08-07
  • 来自专栏临床预测模型

    临床预测模型概述6-统计模型实操-单多因素Cox回归

    基础知识回顾:https://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Qhttps://mp.weixin.qq.com/s/UVR6ZHCwhWqTfFBmPYPV9Q 简单回顾一下cox回归,在各种临床/基础数据分析中,经常需要分析各种影响/危险因素对疾病/状态随着时间变化而产生的影响作用,如研究肝癌患者的生存或死亡风险如何受到不同治疗方式、年龄、饮食习惯、饮酒和抽烟等因素的影响 这个警告 "Loglik converged before variable 1,6,8,9,13; coefficient may be infinite." 在 Cox 比例风险模型的拟合过程中出现,它表明在模型收敛之前,某些变量(编号为 1, 6, 8, 9, 13,可以对照summary结果看一下)的系数估计可能趋于无穷大。 # 5 genderMALE 7.96e-1 0.274 -0.835 0.404 0.465 1.36# 6

    94110编辑于 2024-08-08
  • 来自专栏mysql

    hhdb数据库介绍(6)

    在部署安装前或安装完成后请检查以下各项是否符合关系集群数据库使用要求,若不满足以下要求可能会给集群的运行带来不可预知的异常以及无法发挥集群的最佳性能。 内存 内存 1个计算节点≥30G 1个管理平台≥2G 1个配置库实例≥3G 一个存储节点实例≥60G 1个LVS实例≥6G net.ipv4.tcp_keepalive_probes 小于 6 sysdate-is-now 5.5版本及以下实例使用:select sysdate(),sleep(1),sysdate();5.5版本以上使用select sysdate(6) ,sleep(0.001),sysdate(6);测试要求两列时间相同 实例磁盘空间 实例数据目录绝对路径

    23810编辑于 2025-03-07
  • 来自专栏百味科研芝士

    基于SEER数据库临床预测模型轻松发3分SCI

    今天继续和大家分享一篇临床预测模型文章,同样是基于SEER数据库的一篇预测模型,于2019年11月发表在Annals of Translational Medicine(IF=3.689)上。 of prognostic nomogram for young patients with gastriccancer 标题:建立并验证青年胃癌患者预后的预测模型 文章总体概览: 作者通过检索SEER数据库 并且在OS Nomogram优于TNM而CSSNomogram 优于SEER stage,见图6。 ? 图4. ROC曲线 ? 图5. 校准曲线(OS) ? 图6. DCA结果 笔者总结:本文通过SEER数据库建立了青年胃癌患者OS和CSS的预后预测模型,并进行了验证。通过统计学分析+R语言技术建立了临床适用性较强的Nomogram。 2008年,肿瘤权威期刊《Journal of clinical medicine》发表了一篇文章对Nomogram进行了详细介绍,文中指出纳入Nomogram的变量应该取决于临床资料的可获取性和临床证据

    4.8K33发布于 2020-02-24
  • 来自专栏科研菌

    5+分新思路:公开数据库+简单实验验证!

    作者通过构建PD-L2特定靶点的珠芯片,并利用TCGA数据库中的相关数据来进行相关性分析和p-value分析,发现了PD-L2甲基化→mRNA表达量变化→黑色素瘤病人存活率变化的具体途径和机制。 图5 6.PD-L2甲基化和mRNA表达量显著影响了黑色素瘤患者的生存率 作者对不同CpG位点和mRNA表达量分组,研究了每一组对应的患者生存率(图6)。 结果发现:cg07211259的高甲基化对应着患者的低生存率(p=0.02)(这是因为cg07211259与mRNA表达量负相关)(图6a);mRNA的高表达量对应着患者的高生存率(p=0.03)(图6b 图6 小结 在本篇文章中,作者首先发现了PD-L2甲基化可以影响黑色素瘤患者的生存率,并依此展开研究。

    68410发布于 2020-12-08
  • 来自专栏生信技能树

    TCGA数据库| 如何将表达矩阵与样本临床数据进行合并?

    前面我们已经给大家介绍过TCGA数据库中样本barcode的详细组成:TCGA样本barcode详细介绍,现在我们来看看如何将基因表达矩阵与样本临床信息进行合并,方便后续做 比如生存分析,基因在不同样本分期 clinical <- readRDS(file = "TCGA-BRCA.clinical_patient.rds") colnames(clinical) head(clinical[,1:6]) colnames(mrna_fpkm),14,16)=="01A"]) rownames(mrna_fpkm_tumor) <- mrna_fpkm$symbol_mrna mrna_fpkm_tumor[1:6,1 :6] # 截取样本名字前面12个字符,与临床信息中的样本ID保持一致 colnames(mrna_fpkm_tumor) <- str_sub(colnames(mrna_fpkm_tumor), mrna_fpkm_tumor)) #[1] "TCGA-5L-AAT0" "TCGA-A2-A04U" "TCGA-AN-A04A" "TCGA-A7-A13D" "TCGA-BH-A201" "TCGA-BH-A0H6"

    1.8K12编辑于 2025-01-08
领券