首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏DrugOne

    Science | 预测人类蛋白质组中的蛋白质互作

    DRUGONE 蛋白质蛋白质相互作用(PPI)对生物功能至关重要。尽管基于协同进化分析和深度学习的蛋白质结构预测方法已在细菌和酵母中实现了大规模互作预测,但在更复杂的人类蛋白质组中应用仍然有限。 协同进化分析结合结构预测(如AlphaFold、RoseTTAFold)已在细菌、酵母中开展了蛋白质组规模的筛查,但在人体中仍受制于计算规模和有限的动物基因组数据。 研究人员此前开发的轻量级深度学习网络在人类互作预测中精度有限,而AlphaFold2虽精度更高,但计算开销过大,难以应用于蛋白质组范围。 人类蛋白质组范围内的互作预测 研究人员利用RF2-PPI和AlphaFold2,对19,528个人类蛋白(约1.91亿对配对)进行了筛选。 讨论 研究人员通过结合更深的进化信号和更大规模的训练集,提出了一种在蛋白质组范围内预测人类PPI的有效方法,显著扩展了高置信度互作的覆盖率。

    39010编辑于 2025-10-14
  • Science|蛋白质-蛋白质相互作用的结构发生机制

    引言 蛋白质如何启动并进化出与其他蛋白质的相互作用,以形成结合位点和蛋白质-蛋白质界面,这一问题仍未得到充分理解。 然而,进化形成蛋白质-蛋白质界面的蛋白质表面,与非相互作用的蛋白质表面相比,似乎具有独特的性质。天然蛋白质结合位点通常是给定蛋白质上最「可成药」的位点,且倾向于从组合肽库或抗体库中吸引大多数结合物。 #蛋白质蛋白质相互作用 #合成共进化 #结合位点 #能量景观 #上位性 #种子接触 #可成药性 #蛋白质设计 由苯丙氨酸残基间的种子接触介导的蛋白质-蛋白质复合物初始结合示意图,该过程通过上位效应传递, 最终形成完整的蛋白质-蛋白质界面。 结论 蛋白质-蛋白质共进化平台表明,进化出蛋白质结合能力的蛋白质表面与未进化出该能力的表面之间存在差异。

    12520编辑于 2026-03-03
  • 来自专栏DrugOne

    |DeepRank:蛋白质-蛋白质界面的深度学习框架

    1.DeepRank介绍 DeepRank是一个Python3包,允许对3D蛋白质-蛋白质复合物的数据集进行端到端训练。 用户可以很容易地为蛋白质结构定义特定问题的目标值。 X射线晶体学是确定蛋白质复合物三维结构的最重要的实验方法之一(它占所有沉积的PDB条目的>80%)。 表2 DeepRank和其他方法在CAPRI score_set上命中数和成功率 3.总结 作者描述了一个用于挖掘非常大的蛋白质-蛋白质界面数据集的开源的、通用的和可扩展的深度学习框架。 作者希望DeepRank能够通过促进数据预处理的繁琐步骤和减少可能与大规模数据分析相关的令人生畏的计算成本,从而加快与蛋白质界面相关的科学研究。

    93930编辑于 2021-12-22
  • 来自专栏Dechin的专栏

    蛋白质基础组成结构

    技术背景 了解蛋白质的基本组成单元和结构,有助于了解蛋白质的特性。对于蛋白质结构的研究,在医药领域是非常核心的重要工作。 这里我们仅仅介绍一些蛋白质的基本组成单元——20种氨基酸的种类,以及可以用于蛋白质建模的一些工具。 Xponge的安装和使用 Xponge是一款基于python开发的可以用于蛋白质建模的软件,可以用pip进行安装和管理: $ python3 -m pip install xponge --upgrade 总结概要 本文通过对Xponge+VMD的工具对蛋白质进行建模,然后总结了20种氨基酸的具体信息,也就是蛋白质的基本组成单元。通过对这些氨基酸的组合,就可以得到一个具有生物活性的蛋白质。 同时本文还介绍了常用的存储蛋白质结构的文件格式pdb的具体格式化定义,总体来说是一个总结性的文章。

    94131编辑于 2022-05-09
  • 来自专栏全栈程序员必看

    读懂蛋白质PDB文件

    对于从事生物行业的朋友们来说,PDB文件和蛋白质结构是很多人绕不过去的问题。然而对于天天跑电泳过柱子的生物狗来说,PDB文件打开后与天书无异。 教你读懂蛋白质的PDB文件 HETATM 非标准基团原子坐标,这个是PDB数据库原子坐标的一种记录格式。 B 因子体现了晶体中原子电子密度的“模糊度”( diffusion) , 这个“模糊度”实际上反映了蛋白质分子在晶体中的构象状态. B 因子越高,“模糊度”越大,相应部位的构象就越不稳定。 由于蛋白质分子表面残基的运动性比较大, B 因子相对较高, 所以在统计中除去了这部分残基,具体方法是将数据中B 因子高的残基去掉10 % ,对剩下的残基进行统计,计算平均值。

    2.3K30编辑于 2022-09-05
  • 来自专栏Y大宽

    6️⃣蛋白质序列的功能信息分析1:基于蛋白质基序motif

    序列比对和序列特征分析总目录 蛋白质具有多种生物学功能,具体可参照《生物化学》。蛋白质若发挥生物学功能,须以空间结构形式。 而蛋白质多肽链一旦合成,即可在其他物质协助下,自然折叠,形成一定的空间构象。 1 如果两种蛋白质一级结构相似,那么其空间结构和功能也相似,也有例外。 因为蛋白质的空间结构是发挥功能的基础,凡是能影响蛋白质构象的物化和生物因素等,均可影响其功能。 蛋白质所具有的生物学功能常与一些特殊的结构有关,如特定的基序(又叫模体,motif)和结构域(domain)。具有相同基序或结构域的蛋白质可归为一大类,叫超家族(super family)。 依照蛋白质序列特征进行功能预测,主要有以下几种方法: 1 基于蛋白质基序 2 基于结构域 3 基于同源性搜索 ---- 基于蛋白质motif motif是指与蛋白质特定功能相关,具有特定的氨基酸排列顺序的片段

    6.3K42发布于 2019-03-05
  • 来自专栏智药邦

    AIGC×蛋白质设计,天壤xCREATOR「一键生成」全新的蛋白质

    「一键生成」全新的蛋白质 据了解,国内AI公司天壤在2022年9月推出蛋白质设计工作台xCREATOR后,又于近日率先升级蛋白质工作台xCREATOR的蛋白质设计模块。 其实,在已知的天然蛋白质的背后,蕴藏着一个隐密的巨大蛋白质宇宙。 今年年初,人类实验解析结构的蛋白质总数(PDB)突破20万,已知的蛋白质序列数量达到10^15,而潜在蛋白质空间却远超过该数量级。 图:蛋白质宇宙概念图 建立可编程的蛋白质的设计方法,让计算生物学家拥有了足够优异的路径挖掘蛋白质宇宙的宝藏,根据需求从头设计全新的蛋白质,精准实现目标功能。 据天壤XLab苗洪江博士介绍,这项蛋白质设计技术可以对蛋白质序列和可折叠空间进行自动探索,支持更自由的输入,端到端的产出全新的蛋白质。 Chroma,可根据预设要求设计蛋白质序列和结构;Meta公司则用基于150亿参数的蛋白质序列预训练大模型实现可编程的蛋白质从头设计。

    34230编辑于 2023-02-28
  • 来自专栏DrugOne

    AIGC×蛋白质设计,天壤xCREATOR「一键生成」全新的蛋白质

    「一键生成」全新的蛋白质 据了解,国内AI公司天壤在2022年9月推出蛋白质设计工作台xCREATOR后,又于近日率先升级蛋白质工作台xCREATOR的蛋白质设计模块。 其实,在已知的天然蛋白质的背后,蕴藏着一个隐密的巨大蛋白质宇宙。 今年年初,人类实验解析结构的蛋白质总数(PDB)突破20万,已知的蛋白质序列数量达到10^15,而潜在蛋白质空间却远超过该数量级。 图:蛋白质宇宙概念图 建立可编程的蛋白质的设计方法,让计算生物学家拥有了足够优异的路径挖掘蛋白质宇宙的宝藏,根据需求从头设计全新的蛋白质,精准实现目标功能。 据天壤XLab苗洪江博士介绍,这项蛋白质设计技术可以对蛋白质序列和可折叠空间进行自动探索,支持更自由的输入,端到端的产出全新的蛋白质。 Chroma,可根据预设要求设计蛋白质序列和结构;Meta公司则用基于150亿参数的蛋白质序列预训练大模型实现可编程的蛋白质从头设计。

    78730编辑于 2023-02-17
  • 来自专栏DrugOne

    . | 解码蛋白质蛋白质相互作用的语言

    然而,在真实细胞环境中,蛋白质往往通过形成复合体来执行功能,仅建模单条序列不足以全面理解蛋白生物学。

    15510编辑于 2026-01-13
  • 来自专栏新智元

    地球超2亿蛋白质结构全预测,AlphaFold引爆「蛋白质全宇宙」!

    DeepMind官宣,AlphaFold可以预测出2亿多个蛋白质结构,几乎覆盖了整个「蛋白质宇宙」。 今天,DeepMind再次引爆学术界! AlphaFold在国际蛋白质结构预测竞赛(CASP)上首次亮相,力压其他97个参赛者。 当时,AlphaFold预测出了43种蛋白质中25种蛋白质的最精确结构。 2022年1月28日,DeepMind使用EMBL-EBI在AlphaFold蛋白质结构数据库中添加了27个新蛋白质组(190k+ 蛋白质)。 现在,他们分享了科学界已知的2亿多种蛋白质预测结构。 这庞大数字背后所涵盖的几乎是整个蛋白质宇宙! 他说:「从近100万个蛋白质结构扩展到超过2亿个蛋白质结构,几乎涵盖了所有基因组测序的生物体,这是一个巨大的里程碑!」

    67820编辑于 2022-08-26
  • 来自专栏生物信息学

    蛋白质亚细胞定位分析

    大家晚上好,今天给大家带来的内容是蛋白质亚细胞定位分析,首先做一个简短的介绍。 亚细胞定位是指某种蛋白或某个基因表达产物在细胞内的具体存在部位,包括细胞核、细胞质和细胞膜等部位。 这里以本生烟草为例,给大家介绍如何对感兴趣的很多个蛋白质进行亚细胞定位分析,分为公共平台数据和分析预测两部分。 该工具支持在线预测,它整合了多种计算预测工具,基于GO条目,提取蛋白质序列特征信息。 下图是BUSCA工具面向真核生物的分析预测流程: ?

    4.3K10发布于 2020-04-14
  • 来自专栏生信技能树

    蛋白质组学第2期-认识蛋白质组学原始数据

    上周我们公布了,蛋白质组学习小组起飞啦! 短短几天就获得了200多小伙伴的支持,让我们也更有信心的带领大家掌握一个蛋白质组学数据处理的实战,我们第2期学习内容是认识一下蛋白质组学的原始数据 ? Cell Carcinoma is Downregulation of the Mevalonate Pathway at the Post-transcriptional Level》 理清文章思路 总结蛋白质组学部分的流程

    5.6K77发布于 2019-07-18
  • 来自专栏生信宝典

    蛋白质组学研究概述

    本篇介绍下蛋白质组学,如果覆盖度深的话,应该是新时代的宠儿了。 ? 古希腊,一个神一样的存在,不只有雅典娜,更孕育了“ome”等一批高大上的词汇。组学表示一组物质整体的表现。 蛋白质组学表示特定系统内蛋白质集合的研究。 ? 蛋白质组学有基于二维凝胶分离 (2D-Gel)和质谱鉴定技术。 ? 2D-Gel根据蛋白的等电点和分子质量的差异,通过等点聚焦和SDS-PAGE分离,通过染色和成像把不同电性和大小的蛋白质显示在凝胶上。 ? 蛋白质组实验流程文字和图形总结 ? ? 定性蛋白质组学 ? 从样品中分析全蛋白,胰蛋白酶消化成多肽,经液相色谱-质谱检测,比较实际检测到的质荷比和理论预测的质荷比,鉴定蛋白的种类。 ? ? 靶向蛋白质组技术主要包括SRM/MRM和PRM两种方法。

    1.7K21发布于 2018-06-26
  • 来自专栏数据科学(冷冻工厂)

    什么是蛋白质组学?

    然而,蛋白质组学的目标保持不变,即通过研究细胞的所有蛋白质而不是单独研究每个蛋白质来获得更全面和综合的生物学观点。 2. 蛋白质蛋白质组是在有机体、系统或生物环境中产生的一组蛋白质蛋白质表达 蛋白质表达蛋白质组学 对因某些变量而不同的样本之间的蛋白质表达进行的定量研究被称为表达蛋白质组学。在这种方法中,可以比较样品之间整个蛋白质组或亚蛋白质组的蛋白质表达。 结构 结构蛋白质组学 蛋白质组学研究的目标是绘制出蛋白质复合物的结构或存在于特定细胞器中的蛋白质,被称为“细胞图谱”或结构蛋白质组学。 结构蛋白质组学试图识别蛋白质复合物或细胞器内的所有蛋白质,确定它们的位置,并表征所有蛋白质-蛋白质相互作用。结构蛋白质组学的一个例子是最近对核孔复合体的分析。 这可能包括分离蛋白质复合物或使用蛋白质配体分离特定类型的蛋白质。这种方法允许对一组选定的蛋白质进行研究和表征,并可以提供有关蛋白质信号、疾病机制或蛋白质-药物相互作用的重要信息。 5.

    68910编辑于 2023-02-27
  • 来自专栏Tom

    蛋白质序列的embedding嵌入

    最近在看ESMfold和embedding的知识,然后就来简单写一个简单易懂的蛋白质embedding的demo 这是esm的官网截图,很震撼,meta团队预测了772 million个蛋白质序列,然后将这些蛋白再组合成一个 其实embedding就是将独热编码那种稀疏和高纬度的缺点给改良了一些 接下来我们对代码部分进行说明,首先是对蛋白质进行编码: # 定义氨基酸编码映射 amino_acid_map = { 然后创建我们的embedding嵌入矩阵: 打印一下权重: Embedding的第一个参数20代表了20种氨基酸,40代表了我们要设置的维度,这里设置为了40,大家也可以设置成其他数字 然后把我们的蛋白质序列进行 high_dimensional_vector1.shape) e1=embedding(high_dimensional_vector1) e1就是我们的embedding之后的结果 e1的shape是我们的蛋白质长度 N*20*40 然后再对另外一条蛋白质进行embedding也会得到一个结果e2 然后就可以对e1和e2求余弦相似度了 similarity = torch.nn.functional.cosine_similarity

    2.3K50编辑于 2023-11-06
  • 来自专栏生信技能树

    蛋白质组学第3期-蛋白质组学的三大元素

    上周我们公布了,蛋白质组学习小组起飞啦! 短短几天就获得了250多小伙伴的支持,让我们也更有信心的带领大家掌握一个蛋白质组学数据处理的实战,前面两期我们分享的是: 蛋白质组学第1期-认识基础概念 蛋白质组学第2期-认识蛋白质组学原始数据 ?

    2.9K44发布于 2019-07-26
  • 来自专栏智药邦

    AlphaFold预测出2亿种蛋白质结构,打开整个蛋白质宇宙

    AlphaFold DB充当蛋白质结构的“谷歌搜索”,为研究人员提供即时访问他们正在研究的蛋白质的预测模型,使他们能够集中精力并加快实验工作。 2021年11月2日 DeepMind更新了AlphaFold2源代码以解释多链蛋白质复合物,显著提高了预测蛋白质相互作用的准确性。 2021年12月9日 DeepMind在与EMBL-EBI合作的AlphaFold蛋白质结构数据库中增加了超过40万的蛋白质结构。 05 2022年 数据库的数量级增长 2022年1月28日 DeepMind为与EMBL-EBI合作的AlphaFold蛋白质结构数据库增加了27个新的蛋白质组 (19万多个蛋白质),其中17个代表被忽视的热带疾病 2022年7月28日 DeepMind将AlphaFold蛋白质结构数据库从近100万个结构扩展到超过2亿个结构,包括对UniProt中大多数蛋白质的预测。

    88020编辑于 2022-11-16
  • 来自专栏机器之心

    蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质

    他们开发出一种名为 ProGen 的蛋白质工程深度学习语言模型。ProGen 接受了来自公开的已测序天然蛋白质数据库中的 2.8 亿个原始蛋白质序列的训练,从头开始生成人工蛋白质序列。 相比之下,合理或从头设计蛋白质的方法旨在提高创造具有所需特性的新蛋白质的效率和精度。 ,该研究团队开发了 ProGen,这是一种蛋白质语言模型,在数百万个原始蛋白质序列上训练,可生成跨多个家族和功能的人造蛋白质。 训练后,ProGen 可以提示从头开始为任何蛋白质家族生成全长蛋白质序列,与天然蛋白质具有不同程度的相似性。 对于蛋白质,控制标签是蛋白质家族、生物过程和分子功能等属性,可用于公共蛋白质数据库中的大部分序列。

    82930编辑于 2023-02-23
  • 来自专栏DrugAI

    Methods | 生物物理驱动的蛋白质语言模型:赋能蛋白质工程

    DRUGONE 基于进化数据训练的蛋白质语言模型已成为处理蛋白质序列、结构和功能预测问题的有力工具。然而,这些模型忽视了数十年来关于蛋白质功能的生物物理学研究。 蛋白质序列可被视为一种信息丰富的语言,氨基酸的排列模式蕴含结构与功能的规律。蛋白质语言模型(PLMs)借鉴自然语言处理技术,学习序列中隐含的语义和低维表示,可广泛用于蛋白质工程。 已有的 PLMs,如 UniRep 和 ESM,多在自然蛋白质大规模序列数据库上通过自监督训练获得,能隐式捕捉蛋白质的结构与功能信息。 然而,它们未能充分利用生物物理学原理与分子机制,而这些是解释蛋白质功能的核心因素。研究人员因此提出 METL,以生物物理建模数据为基础,构建更贴近物理规律的蛋白质表示。 不同蛋白质对模拟数据的响应模式不同,较大蛋白质常出现“阈值效应”,而小型蛋白质则表现为更平滑的提升。

    16620编辑于 2026-01-06
  • 来自专栏智药邦

    天壤正式上线AI蛋白质工作台xCREATOR,人人皆可自由设计全新蛋白质

    蛋白质设计领域的 「EDA软件」 蛋白质是生命活动的直接执行者,其结构与功能由氨基酸序列所决定。 天壤XLab是国内最早实现近原子级精度预测蛋白质结构的创新企业,在蛋白质结构预测、蛋白质设计、复合体预测等方面实现了诸多突破。 此次天壤发布的蛋白质工作台xCREATOR,基于自研TRDesign蛋白质设计技术,能够设计不受已知天然蛋白质限制的任意蛋白质,这一全新的创造方式将为生物计算时代的科研工作带来极大便利。 通过分子动力学力场优化结合表面原子结构,获得准确的蛋白质相互作用信息,去绘制细胞内蛋白质相互作用通路图。 后续将逐步开放蛋白质特性分析、蛋白质知识图谱、功能motif数据库、蛋白质表达水平预测、抗体从头设计等功能。

    62720编辑于 2022-11-16
领券