首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Chris生命科学小站五年归档

    安装AlphaFold2,预测Omicron棘突蛋白结构

    最近在研究如何将Alphafold2 如何安装在家里的服务器上,在升级了硬件后终于成功了。正好赶上这个超级病毒出现,于是想小试一下看看在晶体结构被解出来之前,预测是什么样子。 根据南非官方(上图)给出的突变信息获得突变以后的蛋白序列,使用Alphafold2 预测得到蛋白三维结构。就是下面这个图片,Alphafold给出的预测精准度是:76.91%。 图中所示结构蓝色是准确度较高的区域,红色是较低的区域。 新冠病毒棘突蛋白入侵宿主细胞的钥匙,它通过与宿主细胞膜上ACE2受体结合入侵细胞。而棘突蛋白的RBD区域是与ACE2结合的关键。 这次突变的位置确实集中在RBD区域,从放大的图片看,突变多在棘突蛋白偏中心轴的位置,而抗体中和区域在另外一侧,这样的突变会增加传播率,而是否影响现有抗体或者疫苗的能力从位置来看推测影响并不大。 开始是物理跨界生物,后来计算机加入了,生命体内微观世界的样子展现出来,从结构到功能,才是真正的机制研究。 Alphafold 是世界上最准确预测结构的软件,没有之一。

    38520编辑于 2023-02-28
  • 来自专栏R语言数据分析指南

    ggplot2优雅绘制蛋白结构域与基因结构

    0.1,1.2), legend.justification = c(0,1.2), legend.text=element_text(color="black",size=8)) 绘制蛋白保守结构域 fill = guide_legend(direction = "horizontal"))+ guides(fill=guide_legend(nrow=1, byrow=TRUE)) 绘制基因结构

    2.7K20编辑于 2022-09-21
  • 来自专栏新智元

    地球超2亿蛋白结构全预测,AlphaFold引爆「蛋白质全宇宙」!

    AlphaFold能够预测2亿多个蛋白结构,实现数量级的重大飞跃。 最重要的是,全部免费开放! 在未来,预测蛋白结构就如同使用「谷歌搜索引擎」一样简单。 当时,98.5%的人类蛋白结构全被AlphaFold2预测出来了。 而现在,DeepMind正式宣布该数据库已经从近100万扩大到2.14亿个结构,预测蛋白结构数量也提升了200多倍! 据介绍,在超过2亿个蛋白结构预测中,大约35%的结构具有高精度,并且已达到了实验手段获取的结构精度。 80%的结构可靠性足以用于多项后续分析。 现在,他们分享了科学界已知的2亿多种蛋白质预测结构。 这庞大数字背后所涵盖的几乎是整个蛋白质宇宙! 他说:「从近100万个蛋白结构扩展到超过2亿个蛋白结构,几乎涵盖了所有基因组测序的生物体,这是一个巨大的里程碑!」

    68020编辑于 2022-08-26
  • 来自专栏生信小驿站

    查询蛋白结构

    结构域是蛋白质三级结构的基本结构单位和功能单位 蛋白质三级结构的基本结构单位是结构域。 一个蛋白质可以只包含一个结构域也可以由 几个结构域组成,故结构域是能够独立折叠为稳定的三级结构的多肽链的一部分或全部。结构域也是功能单位,通常多结构蛋白质中不同的结构域是与不同的功能相关联的。 生物体的基因组决定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。蛋白结构域是蛋白中具有特异空间结构和独立功能的区域,是蛋白质发挥生物学效用的关键功能单位。 了解蛋白质的空间结构不仅有利于认识蛋白质的功能,也有利于认识蛋白质是如何执行其功能的。确定蛋白质的结构对于生物学研究是非常重要的。 步骤2:在Pfam 数据库导入UniProtKB identifiers ? 步骤3:基于上述步骤,我们就可以得到如下的结果。 ?

    2.3K11发布于 2020-06-05
  • 来自专栏新智元

    颠覆蛋白结构预测的AlphaFold 2,改变了科学史

    传统技术只能生成蛋白结构的模糊轮廓,这让Higgins感到困惑。 不过,通过使用一种名为AlphaFold 2的新人工智能技术,他破解了导致疟疾的寄生虫所使用的一种关键蛋白质的结构。 从赢下围棋,到改变科学史 如今,蛋白质是几乎所有药物的主要靶点,因此了解蛋白结构,是解决如何通过特定方式干预疾病表型的关键。 在AlphaFold之前,寻找蛋白质的结构是一项艰巨的任务。 参赛者会被分到大约100个未知的蛋白的氨基酸序列,这些蛋白质的三结构已经是确定的但并未公布过。 参赛团队将有几个月的时间去研发和使用数学模型以解决这些未知的结构。 在2020年年底的CASP上,AlphaFold 2交出了答卷,预测蛋白结构的准确率达到了近90%,远远高于其他参赛选手。专家们认为它有效地解决了这个问题。 与此同时,AlphaFold 2也一直在运转,在去年夏天发布了2亿份蛋白结构预测结果。 研究的步伐正在迅速加快。

    51610编辑于 2023-03-29
  • 来自专栏智药邦

    AlphaFold预测出2亿种蛋白结构,打开整个蛋白质宇宙

    2022年7月28日,DeepMind官方网站发布AlphaFold最新进展:AlphaFold已经确定了地球上几乎所有已知生物体中大约2亿种蛋白质的结构。 通过与EMBL-EBI合作,DeepMind发布了科学界已知的几乎所有已编目蛋白质的预测结构,这将使AlphaFold DB扩展超过200倍 (从近100万个结构到超过2亿个结构),有可能大大增加我们对生物学的理解 03 2020年 解决50年来生物学领域重大挑战 2020年11月30日 AlphaFold2以巨大优势赢得CASP14,并被CASP的组织者认为是解决50年历史的“蛋白质折叠问题”的解决方案,因为它预测结构达到原子精度 2021年11月2日 DeepMind更新了AlphaFold2源代码以解释多链蛋白质复合物,显著提高了预测蛋白质相互作用的准确性。 2022年7月28日 DeepMind将AlphaFold蛋白结构数据库从近100万个结构扩展到超过2亿个结构,包括对UniProt中大多数蛋白质的预测。

    88320编辑于 2022-11-16
  • 来自专栏Dechin的专栏

    蛋白质基础组成结构

    技术背景 了解蛋白质的基本组成单元和结构,有助于了解蛋白质的特性。对于蛋白结构的研究,在医药领域是非常核心的重要工作。 这里我们仅仅介绍一些蛋白质的基本组成单元——20种氨基酸的种类,以及可以用于蛋白质建模的一些工具。 英文名 中文名 三字母缩写 单字母缩写 结构式 等电点pI 三维结构图 Alanine 丙氨酸 Ala A CH3-CH(NH2)-COOH 6.0 Arginine 精氨酸 Arg R 缬氨酸 Val V (CH3)2CH-CH(NH2)-COOH 5.96 PDB文件基本格式 pdb是最常用的一种存储蛋白结构的文本文件格式,但是pdb本身又是一个严格的结构化的文本文件,其对应位置的内容为 同时本文还介绍了常用的存储蛋白结构的文件格式pdb的具体格式化定义,总体来说是一个总结性的文章。

    94531编辑于 2022-05-09
  • 来自专栏DrugOne

    InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令

    对于L-MDH,一种缺乏实验确定结构的酶,InstructPLM能够设计出具有AF2预测结构的功能性酶。 这种配置能够利用pLMs的强大泛化能力,同时激发pLMs按照残基级蛋白结构指令进行设计。InstructPLM在困惑度和序列恢复方面超越了现有的序列设计技术,同时只增加了2%的参数训练。 图 1 1、蛋白质语言解码器部分,作者这里采用的是ProGen2中参数最多的模型ProGen2-xlarge,有着6.4B参数; 2蛋白质主链编码器部分,作者从现有的蛋白序列设计模型(如ProteinMPNN 值得注意的是,L-MDH没有经过实验确定的结构,因此作者基于其AF2预测的结构来设计L-MDH。设计过程在图3(A)中有所概述。 InstructPLM随着查询长度的增加而实现更好的困惑度,说明了蛋白结构-序列适配器是如何压缩并向ProGen2解码器提供有意义的指令的。然而,查询数量超过256可能会导致过拟合。

    45010编辑于 2024-06-04
  • 来自专栏DrugScience

    寻找蛋白结构中的紊乱残基

    紊乱残基,分析蛋白结构的时候,经常遇见的一个点,以前的,我觉得蛋白结构就是结构,唯一的稳定的,直到我亲眼遇到了几个坑。 好吧开始 用的biopython,编程语言还是python 直接代码: 我懒得排版,你们就简单看 拿个蛋白:1h10 ? 假如出现什么值得注意的地方,那事情就有点难办了 #建造一个mmcif解析器 from Bio.PDB.MMCIFParser import MMCIFParser parser = MMCIFParser() #结构输入 structure = parser.get_structure('1h10', '1h10.cif') #简单看下 structure #看下这个实例能做什么 dir(structure) #这个结构只有一个 model,不是nmr结构,只有A链一条链,残基总共357个 #(水,ligand也算残基(biopython说法应该是异质残基)) len(structure[0]['A']) #判断一个残基是否位为紊乱残基

    68120发布于 2021-02-04
  • 来自专栏DrugOne

    BIB | 动态结构信息提升蛋白-蛋白相互作用预测能力

    蛋白质的空间结构与其功能特性密切相关,在预测蛋白质-蛋白质相互作用中增加蛋白质空间结构相关信息能潜在提高模型预测能力。 本文提出TAGPPI模型,融合蛋白质序列特征与AlphaFold2预测的结构信息提高蛋白-蛋白相互作用预测精度。德睿智药团队负责了研究部分AI模型的开发与验证。 由于蛋白质的空间结构与其功能密切相关,研究团队认为针对PPI预测问题,结合蛋白结构信息,可潜在提高模型的预测性能。 然而,已知结构蛋白质数量有限,限制了基于结构的预测方法的应用,利用Alphafold2预测的蛋白结构是一种新的尝试。 表2:TAGPPI和基于序列的方法在Yeast数据集上的性能比较 除了二分类任务,作者进一步对多分类任务进行了实验。Multi-class数据集包含七种蛋白相互作用类型。

    1.1K20编辑于 2022-03-25
  • 来自专栏Y大宽

    6️⃣蛋白质序列的功能信息分析2:基于蛋白结构域domain和功能位点分析

    [序列比对和序列特征分析总目录](https://www.jianshu.com/p/878f2b2495ae 结构域domain比较抽象,属于蛋白质构象中二级结构和三级结构之间的一个层次,一般每个结构域有 InterProScan数据库:online和linux(无mac和window) nterPro将来自许多其他资源的蛋白质功能的预测信息统一在一起,概述了蛋白质所属的家族及其所包含的域和位点。 非常全面,,将UniProtDB,PROTSITE,PRINTS,PFAM,ProDom等数据库中含有的蛋白质序列的结构域,motif等合并统一,包含了蛋白质所属的家族,及其所包含的结构域和功能位点。

    3.1K00发布于 2019-03-04
  • 来自专栏生信小驿站

    蛋白结构学习记录1

    β-Strands (β-Sheets)  一般不单独出现,成对或多个出现  β链通过氢键相互作用,稳定结构  通过β转角,短或长的loop、coil或α螺旋连 接序列相邻的两个β片。  平行或反平行的β−sheet Loop 连接α-helix或β-sheet 长度和三级结构不确定 在蛋白结构的表面 受点突变的影响小 柔性好,构象变化余地大 带电荷、极性的氨基酸比例高 维系蛋白结构的作用力 氢键: 与电负性大的原子X(氧、氮等)共价结合 的氢,如与负电性大的原子Y接近,在X与Y之间以 氢为媒介,生成X-H…Y形的键。有饱和性和方向 性。 盐键(离子键): 是蛋白质分子中带正、负电荷 的侧链基团互相接近,通过静电吸引而形成,作 用力强,无饱和性,无方向性。 一般认为折 叠过程中不介导蛋白形成正确构象,但加固已形 成的折叠结构。 金属配位键: 金属离子与蛋白特定残基形成。 1,蛋白质的正确折叠所必须; 2,正确折叠过程非必须,但有利于结构稳定。

    85820发布于 2020-10-28
  • AlphaFold破解心脏病关键蛋白结构

    揭示心脏病关键蛋白结构,长期以来既是重要的公共卫生目标,也是一个棘手的科学难题。 揭示其关键蛋白结构,有望阐明坏胆固醇如何在体内产生危害,为科学家预防和治疗ASCVD提供更优策略。AlphaFold在此项工作中发挥了核心作用。 他利用AlphaFold生成了该蛋白结构的原子级精度预测,然后通过与冷冻电镜图像数据进行比对,对这些预测结构进行了优化。 最终生成的模型以前所未有的细节揭示了坏胆固醇关键蛋白结构:一个环绕每个LDL颗粒的笼状外壳,其中包含一条带状结构,确保颗粒在血液中的完整性。 他说:“AlphaFold上线那周,这是我第一个用它来运算的结构,也是我第一个想用我们那台两层楼高的冷冻电镜去观察的蛋白质。解析apoB100的结构,梦想成真了。”FINISHED

    11610编辑于 2026-02-13
  • 来自专栏生信小驿站

    蛋白质二级结构预测

    蛋白质二级结构 ? α-螺旋(α-Helix) 蛋白质中最丰富的的二级结构 β-折叠片(β-Sheets) 具有平行(parallel)与反平行(antiparallel)两种形式 环区(Loops) 连接螺旋和折叠结构 常位于蛋白结构表面,多为带点和极性氨基酸 常为活性位点组成部分 无规则卷曲(Disordered regions) Jpred Jpred 是一种蛋白质二级结构预测网络服务器,由Barton Group 通过提交单一蛋白质序列或多重蛋白质序列并运行,Jpred就可以预测出蛋白质序列的二级结构:α-螺旋、β-折叠或无规则卷曲。Jpred应用了Jnet神经网络算法,准确率达到了76.4%。 (windows)输入神经网络进行二级结构预测。

    1.6K01发布于 2020-07-14
  • 来自专栏DrugOne

    结构感知的蛋白质预训练

    这篇文章设计了针对蛋白结构的预训练任务,并运用双层优化和互信息捕捉序列信息和结构信息的一致性,在下游任务上取得了当前最好的结果。 现有蛋白质表征学习的主要阻碍是有监督数据太少,而最近的一些研究已经证明了自监督学习有希望解决标签不足这个问题。然而,现有蛋白质自监督学习方法只作用在蛋白质序列层面,没有显式考虑蛋白结构的信息。 更进一步,作者利用预训练好的蛋白质语言模型增强蛋白结构的自监督学习,并且提出一种伪双层优化方案去保证蛋白质序列信息和结构信息的一致性。下游任务的实验验证了作者提出的方法的有效性。 主要结果 作者在膜蛋白分类任务(C2),细胞区室分类任务(C10),以及酶分类任务(C384)上验证了作者的方法STEPS的有效性。 总结 在这篇文章里, 作者提出基于蛋白结构的预训练。 基于图神经网络的两个自监督任务很好地捕捉蛋白质的结构信息,同时,伪双层优化保证了蛋白质序列信息和结构信息的一致性。下游任务C2, C10和C384的结果验证了方法的有效性。

    28330编辑于 2022-11-28
  • 来自专栏DrugOne

    基于Alphafold2进行蛋白设计

    前言: 随着alphafold2突破性预测蛋白结构的成功,学术界也开始尝试探索如何使用它进行高精度的蛋白序列设计。本篇快速地进行一下解读。 2. 2.2 迭代end-2-end设计 设计方法的核心是通过MCMC算法对序列空间进行采样,接着使用AlphaFold预测结构,直到生成与目标结构的backbone尽可能地相似。 在第一阶段进行序列设计时,af2预测的TM-score仅有0.746,经过上述的方法进行迭代设计之后,新设计的序列与Top7的相似性仅为27%。 初始序列对应匹配TM-score为0.596-0.7之间,经过设计后,af2预测结构的Cα-RMSD降低至1Å以内,pLDDT score > 85。 讨论 作者通过使用缩水版的alphafold2进行fix-backbone设计,本质上即使用基于pLDDTscore版本的mcmc序列采样,最后通过结构验证所设计的序列可靠性。

    1.1K10发布于 2021-09-17
  • 来自专栏R基础

    蛋白间的分子对接—2

    蛋白间的分子对接—21 与Chatgpt之间的对话需要进行的是SFN和HDAC6两蛋白分子的对接,思路是Uniprot数据库中检索SFN与HDAC6蛋白质,挑选分别率最佳的构象。 以下记录和chatgpt的对话:2 优化后的分析流程具体看最后一条与chatgpt之间的对话现在的分析流程是下载AF-Q9UBN7-F1、AF-P31947-F1的PDB文件,不需要去除水分子和多余配体 ,因为AlphaFold预测的结构中不含有。 使用HDOCK进行分子对接,HDAC6结构为受体,SFN为配体。 对接结果3 导入pymol进行可视化将RANK1 导入pymol进行可视化,主要操作是现实受体的5A活性口袋,然后把对应的棍状结构和氨基酸残基显示即可。

    57111编辑于 2024-11-19
  • 来自专栏机器之心

    4000万蛋白结构训练,西湖大学开发基于结构词表的蛋白质通用大模型,已开源

    编辑 | ScienceAI 蛋白结构相比于序列往往被认为更加具有信息量,因为其直接决定了蛋白质的功能。而随着AlphaFold2带来的巨大突破,大量的预测结构被发布出来供人研究使用。 然而从loss图中可以发现,当上述两种建模方式在AF2结构上使用MLM的训练目标进行预训练时,模型会非常迅速地过拟合(表现为在AF2预测结构上预测loss非常低,但在PDB真实结构上loss停滞甚至上升 作者推测这是由于AF2预测出来的蛋白结构带有一些隐藏的模式(patterns),由于前两种方式是直接对蛋白质的三维坐标进行建模,这些隐藏的pattern可能很轻易地就被模型识别出来,从而造成了信息泄露的问题 蛋白质区分开来,而ESM-2的可视化结果却将两种蛋白质混杂在一起,这说明了SaProt对结构的变化有很强的感知能力。 结果如下: 图:不同结构预测方法的fine-tune结果 从测试结果可以看出,虽然SaProt在AF2结构上的表现最好(模型本身也是基于AF2结构进行训练的),但其他的结构预测方法也能让SaProt与ESM

    33910编辑于 2024-04-26
  • Science|蛋白质-蛋白质相互作用的结构发生机制

    利用合成共进化设计从头界面 图1 合成共进化工作流程 (A)界面迁移策略概述:蛋白质Z结构域和亲和体的经典结合界面(H1-H2)被迁移至非经典H2-H3和H1-H3表面,以创建新的合成界面。 (B)基于蛋白酶的切割-捕获实验示意图:2蛋白质作为单链构建体在酵母表面展示,通过含3C蛋白酶切割位点的柔性接头连接。 ;NGS数据还通过统计机器学习(ML)方法建模多轮筛选数据,以获得估算的适应度景观,该景观可通过模拟共进化轨迹揭示景观几何结构,并通过上位性分析阐明关键蛋白质-蛋白质相互作用;Frame2seq提供序列 用于进化新蛋白质界面的共进化库构建与筛选 图2 共进化筛选进程 (A)针对Z结构域中非经典结合区域(Z-A的H1-H3面和Z-B的 H2-H3面)的共进化库设计:11个库位点通过5种疏水氨基酸(甲硫氨酸 ;每个晶体结构2个图中使用相同的标记。

    12720编辑于 2026-03-03
  • 来自专栏智药邦

    Nature|仅根据靶点结构设计蛋白质的结合蛋白

    2 | 迷你蛋白结合物的从头设计和表征。 a 和 d,以表面表示形式显示的天然存在的靶蛋白结构,在可用的模拟图中显示已知的相互作用关系。 第一,参与信号传导的人类细胞表面或细胞外蛋白,第二,病原体表面蛋白,其结合蛋白可能有治疗作用(图2和图3)。 病原体靶点蛋白 随着SARS-CoV-2冠状病毒大流行的爆发,我们应用我们的方法设计了针对SARS-CoV-2穗状蛋白受体结合域靠近ACE2结合位点的迷你蛋白,以阻止受体的参与。 我们成功地获得了FGFR2和IL-7Rα的非结合小蛋白结合物的晶体结构,以及H3、TrkA、FGFR2、IL-7Rα和VirB8的迷你蛋白结合物与它们的靶点的共晶体结构(扩展数据表2)。 图5|迷你蛋白结合物与靶点蛋白复合后的高分辨结构与计算设计模型非常接近 高分辨率的序列足迹(图2和图3)和竞争结果表明,这些界面既涉及设计的残基,也涉及靶点上的预定区域。

    2.8K20编辑于 2022-04-13
领券