周五公开课文字内容以及录屏回放。 视频已上传到b站,我的b站账号:阿越就是我 本文目录: 从医学统计到机器学习 机器学习在临床中的应用 机器学习和临床预测模型有什么关系? 唯一不同且是最重要的一点:临床预测模型更加注重结合临床背景进行解释。 生信常见的各种数据库id, hgnc gene symbol, entrez id, ensembl id等?中心法则?表观遗传涉及哪些内容?什么是甲基化?单核苷酸多态性SNP, 拷贝数变异CVN? 模型的解释:临床预测模型必须不能脱离临床,单纯的数字游戏没有任何意义。 image-20221210192226653 恐怖的工作量:单是机器学习部分就有10种机器学习算法的101种组合!以及和其他已发表的模型进行比较!
写在前面 越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了。 ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多,而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。 通过其名字我们就知道这个是一个简易版的Clinvar数据库。 输入 数据库的输入很简单,我们可以数据疾病;基因名; 突变等。都可以。 我这里输入gastric cancer。 另外数据库也提供了下载的功能。我们点击Show Table就可以看到其下载结果的地方了。 写在后面 以上就是这个数据的所有功能的。输入关键词—界面友好的查看结果。是不是很简单。 一直再说这类汇总其他数据库的资源,最怕的资源更新慢的问题。不过看这个数据库还是经常更新的。所以可以放心使用的
因为TCGA计划跨时太长,纳入研究的病人数量太多, 或多或少有点资料继续错误或者不完整,所以TCGA团队下功夫在计划结束后(April 2018)完整的系统性的公布了权威的临床资料。 下载链接:TCGA-CDR 看起来是乱码,但的确是真实的下载地址:https://api.gdc.cancer.gov/data/1b5f413e-a8d1-4d10-92eb-7c4ae739ed81 题外话:关于不同数据源的TCGA临床资料冲突的讨论 关于生存分析的冲突问题,我们多次讨论了: 集思广益-生存分析可以随心所欲根据表达量分组吗 寻找生存分析的最佳基因表达分组阈值 比如下面的代码比较两个数据源
1、临床数据的收集和使用 作者选取了4个临床数据集:BIRCH、FIR、OAK、POPLAR. 具体的临床数据请点击阅读原文获取。 2、单变量Cox分析 为了发现临床病理数据与生存结果之间的关联,作者使用Cox比例风险模型在OAK和POPLAR数据集中分析。 图1 从表中的数据我们可以看到CRP (< 3 vs. 3 to 9.9 vs. 10 to 49.9 vs. ≥ 50 mg/L)是最具有预测价值的变量,它的C-statistic达到了0.64,高于其他变量 图3:多变量Cox分析结果(OAK/POPLAR) 为了方便计算,作者将多变量分析获得的相关系数转换为0-10之间的整数,根据转换后的相关系数,为有预测价值的那些变量分配分数。 但之所以能脱颖而出,一方面是使用了较高质量的临床数据;另外,这种预测模型填补了该领域的空白,且预测效果优异,临床应用价值很高。
一、人群SNV频率数据库 数据库名称 网站 简介 dbSNP https://www.ncbi.nlm.nih.gov/snp/ dbSNP 包含人类单核苷酸变异、微卫星和小片段插入和缺失,以及常见变异和临床突变的发表 三、表型数据库 数据库名称 网站 简介 GeneReviews http://www.genereviews.org/ GeneReviews 是为忙碌的临床医生提供的国际即时护理资源,以标准化的期刊样式格式提供与遗传病相关的临床相关和医学上可操作的信息 对RawScores进行从大到小排序,采用-10*log10(rank/total)的公式计算出scaled C-scores。 DECIPHER https://www.deciphergenomics.org/ 使用Ensemble基因组浏览器,将基因芯片数据和临床表型进行关联,便于临床医生和研究人员使用的细胞分子遗传学数据库 七、其他数据库 数据库名称 网站 简介 Pharmgkb https://www.pharmgkb.org/ PharmGKB是一个综合资源,为临床医生和研究人员管理有关基因变异对药物反应影响的知识。
; EHR二次分析需要临床专家和数据科学家的合作,在EHR数据库上推导或者定义一些概念是需要资源的,对于没有特别强的临床背景或者数据科学技能的人来说巨大障碍; 该文介绍MIMIC代码仓库,介绍与重症相关概念的导出以及相关假设条件等 ; 公开数据已经逐渐有了,公开相应的数据代码同样重要。 疾病严重程度评分Severity of illness scores 在回顾性数据库中难以计算 大多都是在前瞻性实验中获取的; 常规收集的数据缺相应元素。 SOFA), Logistic Organ Dysfunction system(LODS) 治疗时间Time of treatment 由于数据获取的限制,许多药物和确切的治疗时间无法得出,需要根据临床经验识别其他可替代的数据 结论 公开数据库的案例已经不少,为了让研究更加透明,也需要公开相应数据分析和数据处理的代码 补充 代码库地址:https://github.com/MIT-LCP/mimic-code 之前以MIMIC-III
今天上午十点,LiveVideoStack邀请到了SSIMWAVE联合创始人与研究员 曾凯,本次公开课主要概述视频质量评价的基础概念和相关算法,并以端到端的视频质量监控系统为例,来讲解质量评价解决方案在实际落地中的应用和收益 ⏰ 活动时间:2022.7.5 | 10:00 观看方式: 扫描海报二维码,或点击【阅读原文】报名,进群参与嘉宾Q/A~ 关注LiveVideoStack视频号,预约直播! (预约后开播会提醒哦~) *如果您有兴趣想成为我们的公开课讲师,请联系 editors@livevideostack.com,告诉我们您想输出的内容。 *往期公开课回放及更多信息可访问:https://www.livevideostack.cn/video/ 点击「阅读原文」立即报名!
考虑到GBM存在较大的遗传异质性,作者希望找到GBM中与药物疗效差异相关的分子生物标志物,为临床药物应用提供一些参考。 二、分析流程 ? 三、结果解析 1.生存相关转录本筛选 作者从REGOMA临床试验中接受两种不同药物治疗的GBM患者(regorafenib n=36;lomustine n=36)的肿瘤组织FFPE切片中提取了 为了验证上述10个miRNAs的高或低表达是否可以独立预测OS或PFS,作者比较了依据各个miRNA表达情况划分的高表达组和低表达组的中位OS和PFS,但均未观察到显著差异。 然而,与作者的发现相反的是,TCGA数据库中miR-17-5p高表达和miR-222-3p低表达对应更好的预后,对此情况,需要日后更进一步的分析来阐明原因。 ? 图3.10个与预后相关的miRNA高/低表达时两个药物治疗组预后的差异 为了解所选择的10个miRNA是否能进一步揭示患者对regorafenib治疗的疗效差异,作者根据10个miRNA
功能入口: 在管理平台页面中点击配置->节点管理->"切换"使用须知:配置了数据节点高可用切换规则,且已经动态加载到计算节点 节点下主从、双主的复制关系已经搭建好,且复制延时时间不得超过10秒MGR节点不支持手动切换 若取消master_delay后的复制延迟仍大于10s,则不允许切换,master_delay也会恢复之前设置的值。 如果优先级最高的从存储节点不可用或延迟超过10秒,程序将从剩余切换规则中依次选择优先级最高的进行切换,如果均不可用或延迟超过10秒,则切换失败,提示错误(切换失败日志提示 switch datasource
对于刚进入EEG领域的同学来说,利用网上公开的EEG数据库练练手,顺便发表一些论文是个不错的选择。 公开数据库对于促进科学研究的快速发展意义重大,公开数据的建立可以让全世界各国的领域内研究者对某些问题进行更深入更全面的研究。 EEG/ MEG/MRI/ fNIRS公开数据库大盘点》),但最近笔者又搜罗了不少EEG的公开数据库网站,因此在这篇推文里笔者把目前的EEG公开数据库进行了较为全面的总结,希望对大家有所帮助。 isip.piconepress.com/projects/tuh_eeg/html/downloads.shtml 6.PhysioNet PhysioNet于1999年在美国国立卫生研究院(NIH)的主持下成立,其提供大量的生理和临床数据以及相关的开源软件来 截至 2021 年 10月,累计使用 SEED 的研究机构数量达到770个。
其实结合工作经历而言,我认为单细胞的临床运用可能还遥遥无期,但是空间的运用已初见端倪,我们简单来看一下。 那么如果我们对单细胞空间和临床检测相当了解的话,那么很容易看到其中的结合部,那就是VDJ和宏基因组检测。 在临床运用上,比如目前最火的CAT-T疗法,在临床上,CAR-T细胞的治疗首先需要收集患者的外周血并分选出T细胞,T细胞在体外进行刺激扩增并通过病毒载体转入特定的CAR基因,被称为CAR-T,随后再将扩增后的 关于空间VDJ的内容,我也写过很多,列在下面全球首篇FFPE空间转录组分析揭示了肾细胞癌中三级淋巴结构抗肿瘤机制10X空间转录组技术创新之同时测RNA和TCR(BCR)10X空间转录组之免疫组库分析Science 通过scVDJ检测到的TR大约是IG克隆的10倍,而在Spatial VDJ中则相反。
作者 | Renato Losio 译者 | 明知山 策划 | 丁晓昀 最近,Pinecone 宣布了其新的无服务器向量数据库的公共预览,旨在降低基础设施管理成本,同时提高生成式人工智能应用的准确性 根据向量数据库专家的说法,读、写和存储的分离显着降低了各种规模和类型的工作负载的开销。多租户计算层使用新的索引和检索算法实现了按需检索,从而实现了对 blob 存储进行内存高效的向量搜索。 在“重新构想向量数据库,实现知识丰富的 AI”一文中,Pinecone 工程副总裁 Ram Sriharsha 描述了团队为何以及如何重建 Pinecone,并讨论了向量数据库的重要作用: LLM 很容易产生幻觉 Ampt 的 CEO 兼创始人 Jeremy Daly 则表示: 它被吹捧为 "遏制 AI 幻觉的突破性进展",但考虑到其他主要数据库也正在添加向量功能,分析人士表示,其接受者可能会很少。 Pinecone 并不是市场上唯一支持无服务器向量存储的参与者,其他数据库和数据平台供应商也提供了支持向量的无服务器数据库,包括 MongoDB 和 Snowflake。
《本文同步发布于“脑之说”微信公众号,欢迎搜索关注~~》 公开数据库对于促进科学研究的快速发展意义重大,公开数据的建立可以让全世界各国的领域内研究者对某些问题进行更深入更全面的研究。 此外,我们个人同样可以利用各类脑科学公开数据库方便地进行各种研究。 笔者在这里较为全面地盘点目前免费的EEG/MEG/MRI/ fNIR公开数据库,希望对大家的研究有所帮助。 网址:http://myconnectome.org/wp/ 中国AD临床前期联盟多中心认知下降纵向研究数据库 中国AD临床前期联盟多中心认知下降纵向研究数据库(SILCODE)是由中国国家老年疾病临床医学研究中心 (NDAR),与精神疾病相关的国家临床试验数据库(NDCT),研究领域标准数据库(RDoC db)和NIH小儿MRI数据存储库等。 从内容上来说,该数据库数据内容丰富,包含临床、影像学,基因组等方面的数据。
对基因组学、表观基因组学、转录组学和临床信息的综合分析有助于鉴定特定的分子亚组并发现胰腺癌的新生物标志物。 二.分析流程 ? 图4.胰腺癌中DNA拷贝数变异与甲基化异常频率之间的相关性 5.胰腺癌亚群的临床病理特征和免疫评分 作者进一步分析了iC1和iC2 / iC3 / iC4亚组之间的临床病理信息。 表3. iC1和iC2 / iC3 / iC4亚组之间临床特征的比较 接下来,作者使用TIMER工具来计算四个亚组的免疫评分。 使用来自GEO数据库的外部GSE21501和GSE71729数据集来验证结果。 最后,在外部和内部数据集中选择了三个与胰腺癌预后相关的基因(GRAP2,ICAM3和A2ML1)。 由于尚无文献报道,作者将在进一步研究中研究这三个新靶标(GRAP2,ICAM3和A2ML1)在胰腺癌中的生物学和临床功能。
今天上午10点,LiveVideoStack邀请到了快手异构平台架构师 刘理,本次分享将介绍快手多媒体业务在异构计算(GPU, FPGA, ASIC)方面的探索。 ⏰ 活动时间:2022.7.28 | 10:00 观看方式: 扫描海报二维码,或点击【阅读原文】报名,进群参与嘉宾Q/A~ 关注LiveVideoStack视频号,预约直播! (预约后开播会提醒哦~) *如果您有兴趣想成为我们的公开课讲师,请联系 editors@livevideostack.com,告诉我们您想输出的内容。 *往期公开课回放及更多信息可访问:https://www.livevideostack.cn/video/ 点击「阅读原文」立即报名!
今天继续和大家分享一篇临床预测模型文章,同样是基于SEER数据库的一篇预测模型,于2019年11月发表在Annals of Translational Medicine(IF=3.689)上。 of prognostic nomogram for young patients with gastriccancer 标题:建立并验证青年胃癌患者预后的预测模型 文章总体概览: 作者通过检索SEER数据库 DCA结果 笔者总结:本文通过SEER数据库建立了青年胃癌患者OS和CSS的预后预测模型,并进行了验证。通过统计学分析+R语言技术建立了临床适用性较强的Nomogram。 2008年,肿瘤权威期刊《Journal of clinical medicine》发表了一篇文章对Nomogram进行了详细介绍,文中指出纳入Nomogram的变量应该取决于临床资料的可获取性和临床证据 Cancer Res., 2004, 10:7252-9.
作者通过构建PD-L2特定靶点的珠芯片,并利用TCGA数据库中的相关数据来进行相关性分析和p-value分析,发现了PD-L2甲基化→mRNA表达量变化→黑色素瘤病人存活率变化的具体途径和机制。
大家好,我是小五 DB-Engines 最近发布了 2021 年 9 月份的数据库排名。该网站根据数据库管理系统的受欢迎程度对其进行排名,实时统计了 378 种数据库的排名指数。 前 30 名的排行情况详见下图,前10大数据库 用线段做了分割。同时在文末,会免费赠送给大家一些数据库书籍! 跌幅榜情况 较去年同期,本月三霸主集体暴跌再次霸占了“同期跌幅榜”。 虽然各大开源类数据库百花齐放,然而,在 DB-Engines 全球数据库排行榜上,Oracle 和 MySQL 依然是世界上最受欢迎的商业和开源类数据库,而且领跑优势还在继续扩大。 小众数据库不可小觑 数据库相关从业人员可以将 DB-Engines 数据库排名作为参考,大数据时代发展速度之快超乎我们的想象,新的数据库产品仍然在不断诞生,如果你的需求比较特殊,大众数据库产品无法很好地满足你 快手内部也在使用 ClickHouse,存储总量大约 10PB, 每天新增 200TB, 90% 查询小于 3S。
数据是企业的生命线,数据的存储与读取就需要数据库。 今天,民工哥就同大家一起来聊一聊数据库。 如今,数据库的品牌如雨后的春笋一样,更是显现出百家争鸣的局面。 在众多数据库品牌中,这十大数据库脱颖而出,我们一起来盘一盘。 Express 版(Express):免费版本,功能有限(如最大数据库大小 10GB)。适合开发测试环境或小型个人项目。 国内云原生数据库市场的领导者,与华为云深度整合。 达梦数据库(DM) 达梦数据库(DM)是由武汉达梦数据库股份有限公司自主研发的一款高性能、高可靠性、高安全性的企业级关系型数据库管理系统。 #分布式数据库 #Nosql #国产数据库 #云原生数据库 #分布式关系型数据库 #原生分布式数据库 #阿里 #华为 #微软 #科技 #互联网 #IT 都看到这里了,觉得不错的话,随手点个赞 、推荐
前面我们已经给大家介绍过TCGA数据库中样本barcode的详细组成:TCGA样本barcode详细介绍,现在我们来看看如何将基因表达矩阵与样本临床信息进行合并,方便后续做 比如生存分析,基因在不同样本分期 ################################################################## ########################## 3.批量下载临床数据 先看看各自的样本ID名,根据前面的介绍《TCGA样本barcode详细介绍》,可以看到 表达矩阵里面的是样本ID,临床信息中是patient ID,一个病人可能会取多个样本,比如同时存在正常样本与肿瘤样本 这里对应的时候,一般可以先将样本分为肿瘤样本与正常样本,看看肿瘤样本中 某个基因表达的高低分组 生存曲线KM差异: 肿瘤样本的编号一般为样本barcode中的第14-15位编码字符: 01-09为肿瘤样本,10 以及10以上的为对照样本。