写在前面 越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了。 ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多,而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。 通过其名字我们就知道这个是一个简易版的Clinvar数据库。 输入 数据库的输入很简单,我们可以数据疾病;基因名; 突变等。都可以。 我这里输入gastric cancer。 另外数据库也提供了下载的功能。我们点击Show Table就可以看到其下载结果的地方了。 写在后面 以上就是这个数据的所有功能的。输入关键词—界面友好的查看结果。是不是很简单。 一直再说这类汇总其他数据库的资源,最怕的资源更新慢的问题。不过看这个数据库还是经常更新的。所以可以放心使用的
数据呈现:Be和Pro可以很好地区分HCC 与肝炎和肝硬化,其联合诊断的灵敏度和特异性要远优于目前临床使用的肝癌诊断指标AFP,尤其在AFP表达阴性的HCC患者中,诊断准确性为92%,具有很好的临床应用前景 启示:无论在做代谢组学还是蛋白质组学,当筛选到差异代谢物/蛋白质时,一定要和传统临床指标/传统危险因素进行校正。
因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。 看起来是乱码,但的确是真实的下载地址:https://api.gdc.cancer.gov/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81 题外话:关于不同数据源的TCGA临床资料冲突的讨论
今天我们就来聊聊基于临床样本的单细胞转录组测序。 在组织中分选特定细胞,组织样本的处理和细胞分选技术非常重要(技术注意事项可以多向测序公司咨询); 3.对于利用临床样本纯单细胞测序研究来说,要重视单细胞测序数据分析算法的个性化,利用各种不同巧妙的算法尽可能多挖掘测序数据中隐藏的信息
一、人群SNV频率数据库 数据库名称 网站 简介 dbSNP https://www.ncbi.nlm.nih.gov/snp/ dbSNP 包含人类单核苷酸变异、微卫星和小片段插入和缺失,以及常见变异和临床突变的发表 ClinGen https://www.clinicalgenome.org/ ClinGen是美国国立卫生研究院(NIH)资助的数据库资源,用于精准医学,研究基因和变异的临床相关性。 三、表型数据库 数据库名称 网站 简介 GeneReviews http://www.genereviews.org/ GeneReviews 是为忙碌的临床医生提供的国际即时护理资源,以标准化的期刊样式格式提供与遗传病相关的临床相关和医学上可操作的信息 DECIPHER https://www.deciphergenomics.org/ 使用Ensemble基因组浏览器,将基因芯片数据和临床表型进行关联,便于临床医生和研究人员使用的细胞分子遗传学数据库 七、其他数据库 数据库名称 网站 简介 Pharmgkb https://www.pharmgkb.org/ PharmGKB是一个综合资源,为临床医生和研究人员管理有关基因变异对药物反应影响的知识。
“医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。 脚本已上传到QQ群,需要的小伙伴加群下载即可~ 只需要1行代码就可以获取分别获取mRNA和lncRNA的counts/fpkm/tpm总计6种类型类型的表达矩阵以及临床信息,表达矩阵是标准形式,行是基因 完成后会在当前目录多出一个output_expr文件夹,里面就是6个表达矩阵和临床信息: 完成后会多出一个文件夹 output_expr文件夹里面就是提取好的信息: 提取好的表达矩阵和临床信息 TCGA-LUSC_expr.rdata :原始的se对象,所有信息都是从这里面提取的; TCGA-LUSC_clinical.rdata:TCGA-LUSC的临床信息; TCGA-LUSC_lncRNA_expr_counts.rdata:lncRNA fpkm矩阵; TCGA-LUSC_mRNA_expr_tpm.rdata:mRNA的tpm矩阵; 表达矩阵示例: lncRNA的counts矩阵 mRNA的counts矩阵 mRNA的tpm矩阵 临床信息
基础知识回顾:tps://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Qhttps://mp.weixin.qq.com/s/UVR6ZHCwhWqTfFBmPYPV9Qhttps 通常该方法用于筛选自变量(大量的基因数据/临床参数等),有时候也可以用于获取建模前自变量的系数。 6. 绘制路径图:● 可以绘制系数路径图或交叉验证曲线来直观地查看模型在不同λ值下的表现,从而更好地选择合适的λ值。4. 0,]nrow(coef)lassoGene = coef$genelassoGene# [1] "NLRC4" "PJVK" "CASP8" "BAK1" "GSDME" "NLRP6" ayueme.github.io/R_clinical_model/feature-selection_lasso.html3、生信小白要知道:https://mp.weixin.qq.com/s/kSrr6regfAtX4Bw6gSvmgw
详细结果总结在补充表 6 中。 改进最显著的是在 PubMedQA 数据集上,8B 的 Flan-PaLM 模型的表现比基础的 PaLM 模型高出超过 30%。 补充信息第 6 节中展示的结果表明,COT 提示在引导模型解决这些问题类型方面是有效的,而不是为模型添加新知识。 我们在扩展数据表 6 中进一步提供了 Flan-PaLM 540B 模型针对 MedQA 的示例响应。 这些结果在以下内容以及补充信息的第 10 节中详细描述,并在图 4–6 中进行了可视化。 结果总结在图6中。 虽然Flan-PaLM的答案在仅60.6%的情况下被认为有帮助,但Med-PaLM的答案这一比例增加到了80.3%。
一、文章简介 《Nature Biotechnology》封面文章 文章报道:摘自测序中国公众号文章报道 《NBT 封面报道:6 小时精准识别下呼吸道病原体 O'Grady 博士及合作者共同发布的首个使用纳米孔技术的快速、经济的宏基因组测序方法,直接从患者呼吸道样本中准确快速地识别细菌病原体,并在 6 小时内准确检测抗性基因的突破性研究。 该团队在 40 个临床呼吸道样品上进行初期测试,在另外 41 个样品上进行了优化和测试。与培养法和 PCR 相比,优化的流程具有较高对病原体鉴定的敏感性(96.6%)和临床特异性(41.7%)。 使用该方法从样品到获得结果的周期为 6 小时,比培养法快了约 40 小时。 该方法从样品到结果仅需 6 小时,对病原体检测的敏感性 96.6%、特异性 41.7%,同时可检测抗生素抗性基因; 4.
在各种临床/基础数据分析中,经常需要分析疾病/状态与各种影响/危险因素之间的定量关系,如鼻咽癌的发生于EB病毒定量、年龄、不同饮食习惯等因素之间的关系,而结局变量通常是二分类的,因此这种方法是研究者必须学会的方法之一 16 14 8 15 8 5 15 11 16 9 # 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 90 # 17 13 10 6 0.761 0.447 # 5 age>60 0.346 0.326 1.06 0.289 # 6 6、多因素logstic回归筛选自变量# 在用forward/backward/both方法的时候需要去除NA值! N race stage T df logLik AICc delta weight# Backward -1.524 + 30.84 + 6
基础知识回顾:https://mp.weixin.qq.com/s/pXRZ1rYUr3lwH5OlDeB0_Qhttps://mp.weixin.qq.com/s/UVR6ZHCwhWqTfFBmPYPV9Q 简单回顾一下cox回归,在各种临床/基础数据分析中,经常需要分析各种影响/危险因素对疾病/状态随着时间变化而产生的影响作用,如研究肝癌患者的生存或死亡风险如何受到不同治疗方式、年龄、饮食习惯、饮酒和抽烟等因素的影响 这个警告 "Loglik converged before variable 1,6,8,9,13; coefficient may be infinite." 在 Cox 比例风险模型的拟合过程中出现,它表明在模型收敛之前,某些变量(编号为 1, 6, 8, 9, 13,可以对照summary结果看一下)的系数估计可能趋于无穷大。 # 5 genderMALE 7.96e-1 0.274 -0.835 0.404 0.465 1.36# 6
在部署安装前或安装完成后请检查以下各项是否符合关系集群数据库使用要求,若不满足以下要求可能会给集群的运行带来不可预知的异常以及无法发挥集群的最佳性能。 内存 内存 1个计算节点≥30G 1个管理平台≥2G 1个配置库实例≥3G 一个存储节点实例≥60G 1个LVS实例≥6G net.ipv4.tcp_keepalive_probes 小于 6 sysdate-is-now 5.5版本及以下实例使用:select sysdate(),sleep(1),sysdate();5.5版本以上使用select sysdate(6) ,sleep(0.001),sysdate(6);测试要求两列时间相同 实例磁盘空间 实例数据目录绝对路径
今天继续和大家分享一篇临床预测模型文章,同样是基于SEER数据库的一篇预测模型,于2019年11月发表在Annals of Translational Medicine(IF=3.689)上。 of prognostic nomogram for young patients with gastriccancer 标题:建立并验证青年胃癌患者预后的预测模型 文章总体概览: 作者通过检索SEER数据库 并且在OS Nomogram优于TNM而CSSNomogram 优于SEER stage,见图6。 ? 图4. ROC曲线 ? 图5. 校准曲线(OS) ? 图6. DCA结果 笔者总结:本文通过SEER数据库建立了青年胃癌患者OS和CSS的预后预测模型,并进行了验证。通过统计学分析+R语言技术建立了临床适用性较强的Nomogram。 2008年,肿瘤权威期刊《Journal of clinical medicine》发表了一篇文章对Nomogram进行了详细介绍,文中指出纳入Nomogram的变量应该取决于临床资料的可获取性和临床证据
对作者是如何从307个early-stage cervical cancer (CESC)病人中根据临床信息挑选出145个病人的过程有些疑惑。下面是原作者筛选样本的标准。 ? 首先我们要从TCGA中下载CESC的临床信息,在TCGA中搜索CESC,选择TCGA-CESC。 ? 选择miRNA样本,点击307这个超链接。 ? 任意选择一个样本,点击进入。 ? 点击Download下载,里面就包含所有样本的临床信息 ? 解压到当前文件夹 ? 更多临床信息解读可以参考肿瘤TNM分期。 ? ? 这就和原文中的表1中的数字相同了。 ? 接着我们检查一下相应的Tumor Grade样本数是否正确。
前面我们已经给大家介绍过TCGA数据库中样本barcode的详细组成:TCGA样本barcode详细介绍,现在我们来看看如何将基因表达矩阵与样本临床信息进行合并,方便后续做 比如生存分析,基因在不同样本分期 clinical <- readRDS(file = "TCGA-BRCA.clinical_patient.rds") colnames(clinical) head(clinical[,1:6]) colnames(mrna_fpkm),14,16)=="01A"]) rownames(mrna_fpkm_tumor) <- mrna_fpkm$symbol_mrna mrna_fpkm_tumor[1:6,1 :6] # 截取样本名字前面12个字符,与临床信息中的样本ID保持一致 colnames(mrna_fpkm_tumor) <- str_sub(colnames(mrna_fpkm_tumor), mrna_fpkm_tumor)) #[1] "TCGA-5L-AAT0" "TCGA-A2-A04U" "TCGA-AN-A04A" "TCGA-A7-A13D" "TCGA-BH-A201" "TCGA-BH-A0H6"
净收益考虑了模型在某个阈值下的灵敏度(True Positives)与特异性(False Positives),提供了一种可以用于临床实际决策的量化指标。 Med Decis Making. 2006 Nov-Dec;26(6):565-74.Extensions to decision curve analysis, a novel method for 0iycRpUsDm1Ds3DTkEu4-A https://mp.weixin.qq.com/s/IrZwwQYCBDT63xH7QtfDvA https://mp.weixin.qq.com/s/g5iWSE6hwXh6rbpOn08DOg
本页面提供了支持的数据库的所有 JDBC 驱动下载链接。 基于许可证的原因,我们没有将 MySQL 或 Oracle 的数据库驱动整合到 Confluence 中,因此你需要在 Confluence 启动之前手动下载和安装驱动。 添加你数据库驱动(MySQL 和 Oracle) 如果 Confluence 不能找到正确的数据库驱动的话,Confluence 配置向导将会在数据库配置步骤中停止进行。 希望你的数据库驱动能够在 Confluence 中使用: 停止 Confluence 下载和解压下面列表中需要的数据库驱动。 安装向导将会返回到数据库配置界面中,让你从这里开始下一步的数据库配置。
必须使用支持的数据库驱动。请参考 Database JDBC Drivers 页面来获得 Confluence 支持的数据库驱动。
临床试验终点(End Point)服务于不同的研究目的。在传统的药物的研发中,早期的临床试验目的是评价安全性以及药物的生物活性,如肿瘤缩小。 后期的有效性研究通常评价药物是否能提供临床获益,例如生存期延长或症状改善等。 让我们一起来看看常用的临床试验终点都有什么区别以及优缺点。 药物上市申请时如果采用基于肿瘤测量的临床试验终点作为有效性的唯一证据,那么通常应提供来自第二个试验得到的确凿证据。 PFS 的改善包括了「未恶化」和「未死亡」,即间接和直接地反映了临床获益,它取决于新治疗与现治疗的疗效/风险。 因此,在临床试验设计中,「肿瘤进展」的标准必须要进行明确的定义,还包括 PFS 的评估、观察、分析方法,随访和影像学评价必须是均衡的,最好有一个由影像学专家和临床专家组成的处于盲态的独立裁定小组进行。
实验室数据不断刷新记录的Google Health,最近公布了一项临床诊断试验结果。 不理想。 ? 不仅诊断结果不一致,而且实际操作方法和在实验室里压根不一样。 没想到,落到临床试验,却失败了。 这大概就是理想与现实的差距吧。理想有多丰满,现实就有多骨感。 像极了我们在大学实验室里做实验的样子。 ? 为了验证算法的性能,他们还使用了2个独立的临床试验数据集,包括1.2万幅图片,审核结果由专家来判决。 临床试验很“骨感” 这个项目主要是在泰国展开,与泰国公共卫生部门合作,在泰国巴吞他尼省和清迈省的11所诊所安装了这个深度学习系统。 同时,也给谷歌这种勇于“正视淋漓的临床结果”的态度,点个赞。 毕竟这个行业里,报喜的多,吹哨的少。 也提醒我们,医疗AI,没那么简单。