首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 蛋白质语言模型微调cookbook

    上图就是我们本次要使用的数据集 二.基于ESM2蛋白质语言模型的微调 2.1训练目标: 学习类型:监督学习 学习任务:二元分类 评估指标:ROC曲线下面积(AUC) 利用蛋白质语言模型预测肽的免疫原性 DatasetDict({ 'train': train_dataset, 'validation': val_dataset }) 加载tokenizer,我们本次使用esm2_t6_8M_UR50D蛋白质语言模型 三.结尾 我们先把包含肽段序列和正/负标签的数据读入并分成训练集与验证集;再用 ESM 的分词器把序列转成模型能理解的“数字语言”;接着在预训练好的 ESM 上挂一个小小的分类头,用 LoRA 这种“只微调少量新参数 最终,我们得到一个基于蛋白质语言模型的免疫原性预测模型。 如果大家对plm,protein language model感兴趣,也可以阅读下图所示最新的一期论文, 使用esmc作为基础模型进行蛋白质基础语言模型,进行蛋白质与脂质的结合表征,以及结合预测。

    13210编辑于 2026-04-17
  • 来自专栏DrugOne

    ProGen:蛋白质生成语言模型

    最近的研究开始利用更大规模的原始蛋白质序列数据集,采用最先进的表示学习技术,将自然语言处理(NLP)方法应用到蛋白质属性分类。 ProGen模型是一个含有12亿个参数的语言模型,该模型在包含2.8亿个蛋白质序列的数据集和编码不同注释的条件标签上训练而成,这些标签包含分类、功能和位置信息。 3.4评估 为了评估模型的训练和测试能力,复杂度(perplexity)作为语言模型的衡量指标,硬准确率(hard accuracy)评估每个氨基酸误差,软正确性(softaccuracy)是标准氨基酸替换矩阵 ProGen的参数数量可与最大规模的语言模型相提并论,但是,下图中的训练曲线表明无论多大的规模和数量,ProGen均不会出现过拟合现象。这说明蛋白质生成将受益于更大规模的模型和更长时间的训练。 ? 5 总结 本文介绍了一种可控的蛋白质生成语言模型ProGen,该模型生成的蛋白质接近自然结构能量,这意味着其具备功能可行性,该模型有潜力与其它先进的方法一样成为一个新的方法。

    1.4K60发布于 2021-02-02
  • 微调蛋白质语言模型——protein level

    一.前言 今天给大家带来微调蛋白质语言模型的教程。 今天这个任务是针对 1.per protein prediction,这个就是说使用蛋白质语言模型对整个蛋白质序列进行全局层面的预测输出。 除了今天这一篇以外还会有两篇内容是关于: 2.per residue prediction 3.per residue regerssion 大家可以自己找自己任务匹配的数据集,然后微调一个属于自己的蛋白质语言模型 二.背景 蛋白质语言模型的微调的两个方法: 1.PEFT:Parameter Efficient Fine Tuning https://huggingface.co/blog/peft 2.LoRA 三.代码实战 首先说一下运行环境,这份代码运行在Google colab的T4 gpu上 其次本次我们是为了演示起来比较方便,我们使用esm2家族最小的蛋白质语言模型:esm-8m 关于esm 蛋白质语言模型家族的介绍 github.com/J-SNACKKB/FLIP/tree/main/splits/gb1 好了接下来直接开始代码,因为时间有限,大家代码有任何问题欢迎讨论交流,没有写很详细的注释,如果需要可以借助大语言模型进行加深理解

    13010编辑于 2026-04-17
  • 来自专栏实验盒

    ProtChat:融合大语言模型蛋白质语言模型的自动化蛋白质分析工具

    近年来,大语言模型(LLMs)在自然语言处理领域取得了巨大进展,极大地提升了人机交互的效率和精准度。而在计算生物学中,蛋白质序列被类比为自然语言,基于此的蛋白质语言模型(PLLMs)也应运而生。 ProtChat是一个基于GPT-4和多种蛋白质语言模型(如ESM和MASSA)的多智能体系统,旨在简化蛋白质分析流程,降低使用门槛,并为研究人员提供一个高效的自动化工具。 ProtChat的设计与架构 ProtChat 的核心思想是将 GPT-4 的自然语言处理能力与 蛋白质语言模型(PLLMs) 的蛋白质语义理解能力相结合。 基础模型的选择:选择合适的LLM和PLLM基础模型对于任务的成功至关重要。GPT-4 被选为LLM基础模型,而PLLM的选择则取决于任务的具体需求。 总结 ProtChat 通过整合GPT-4和蛋白质语言模型,成功地将自然语言处理能力与蛋白质领域的专业知识相结合,提供了一个高效的自动化蛋白质分析工具。

    53310编辑于 2025-01-22
  • 蛋白质语言模型-Big Isnt Always Better

    作者是来自德国慕尼黑工业大学的Tobias Senoner plm=protein language model 接下来,我们就通过这篇论文来看看到底应该在计算任务中选择蛋白质语言模型呢? 一.概述 该研究系统地基准测试了十四种蛋白质语言模型(pLMs),旨在评估它们学习到的嵌入如何有效地表征蛋白质的序列、结构和功能相似性。 被分析的蛋白质语言模型 (pLMs) 研究系统地比较了 14 种常用 pLMs 生成的表示 。这些模型涵盖了不同的架构、训练方法和参数规模 。 第二个图是验证微调蛋白质语言模型会使得蛋白质语言空间发生形变: 所以有三个关键结论,可以结合上面的图一起看: 规模-性能悖论: 对于仅依赖原始嵌入距离(固有信息)的零样本(zero-shot)应用,中等规模的基础 所以这篇文章最终告诉我们的是: 选择pLM是一场在“即时可用性”与“未来潜力”之间的权衡,蛋白质语言模型层出不穷,如何选择适合自己的特异性的研究和任务的模型,我相信这是一场关于研究蛋白质语言模型的长途旅行

    13410编辑于 2026-04-17
  • 来自专栏智能生信

    基于语言模型的可控蛋白质设计

    简读分享 | 蒋一 编辑 | 龙文韬 论文题目 Controllable protein design with language models 论文摘要 蛋白质序列在本质上类似于自然语言:氨基酸以多种组合方式排列 因此,在整个自然语言处理(NLP)的历史中,它的许多技术被应用于蛋白质研究问题。Transformer预训练模型的实施使文本生成具有类似人类的能力,包括具有特定属性的文本,如风格或主题。 对蛋白质家族的预训练模型进行微调,将使它们能够用新的序列来扩展它们,这些序列可能是高度不同的,但仍有潜在的功能。控制标签的结合方式,如细胞区系或功能,进一步使新型蛋白质功能的可控设计成为可能。 此外,最近的模型可解释性方法将使我们能够解决”black box“问题,增强我们对蛋白质folding原理的理解。早期的举措显示了生成性语言模型在设计功能序列方面的巨大潜力。 作者认为,使用生成性文本模型来创造新的蛋白质是一个很有前途的、在很大程度上未被开发的领域,并讨论了它对蛋白质设计可预见的影响。

    41820编辑于 2022-12-29
  • ESM3蛋白质语言模型cookbook(3)

    前两章我们介绍了ESM3和ESM-C模型 ESM3蛋白质语言模型cookbook(1) ESM3蛋白质语言模型cookbook(2) ·Hayes论文图 ESM3 能够在蛋白质的序列、结构和功能之间进行联合推理,因此我们可以构建新的提示方式,以比许多其他生物语言模型更高的控制水平引导模型生成蛋白质。 序列、结构和功能这三种模态在模型中被表示为离散 token 的轨道,既出现在模型的输入中,也出现在输出中,并在模型内部融合为一个统一的潜在空间。 ESM3 使用带有可变掩码率的生成式掩码语言建模目标进行训练,因此我们可以通过完全或部分掩码的上下文,以及在不同轨道上的不同条件点进行提示。这使我们在提示词的设定上具有极大的创造空间。 ,其中背后的引擎则是esm3蛋白质多模态模型,并且也用到了自然语言中的很多概念,如mask和token的表示。

    14210编辑于 2026-04-17
  • ESM3蛋白质语言模型cookbook(2)

    上一张我们讲解了最基础的ESMProtein类: ESM3蛋白质语言模型cookbook(1) 今天我们继续介绍第二章的内容: 使用ESM-C模型获取蛋白质的特征表达(embedding),进行一个简单蛋白质序列分类的任务 的蛋白质模型。 ESM-C(寒武纪)是他们的旗舰ESM3生成模型的平行模型家族。 ESM3专注于可控的蛋白质生成,而ESM C专注于创建蛋白质潜在生物学的表示。 这种表示方式的好处是,它能让模型更好地理解语言中的上下文关系、语义相似性和词语之间的复杂联系,是现代语言模型(如BERT、GPT)的基础。 所以我们这次将会通过ESM-C蛋白质语言模型去提取蛋白质序列的embedding表示也就是用特征向量来表示蛋白质序列。

    13010编辑于 2026-04-17
  • ESM3蛋白质语言模型cookbook(1)

    图中为Esm的官网 www.evolutionaryscale.ai 读者需要自行注册 ESM的工作台 ESM-2 是 Meta AI 推出的蛋白质语言模型,基于约 6500 万条天然序列训练的大型 Transformer hugggingface上ems2的model card 紧接着,原团队核心成员成立 EvolutionaryScale 并发布生成式旗舰 ESM-3——参数规模再跃升、支持自然语言式“提示”,能模拟 5 亿年进化并实测设计出全新的绿色荧光蛋白,帮助科学家按需创造酶、抗体及碳捕获蛋白等功能分子,标志着蛋白质语言模型从“预测”迈向“可控生成”时代。 ESM-3更是一个多模态的蛋白质语言模型,结合了蛋白质的结构和功能等特征。 ESM3模型使用输入(提示)中的这些属性,并将其作为输出的一部分生成。

    11910编辑于 2026-04-17
  • 来自专栏DrugOne

    基于知识指令的人类语言-蛋白质语言对齐模型

    但这些语言模型在自然语言和代码语言上极强的处理能力并不能迁移到生物序列(如蛋白质序列)上。当让其描述一条蛋白质序列的功能或者生成一条符合某种性质的蛋白质,它们常常不会遵从指令,或者给出错误答案。 本文首次探索了蛋白质语言和人类语言的双向生成能力,展示了将生物序列作为大语言模型能力一部分的潜力,为其更好的服务科学领域提供可能。 该方法不包含大语言模型具备蛋白质语言理解的任何假设,不会产生因为模型幻觉引入的虚假信息。构建过程包含了三个阶段,首先是基于已有蛋白质-文本对构建知识图谱。文章选择用UniProtKB作为数据源。 实验 文章在蛋白质序列理解和设计上评估大语言模型 蛋白质理解 文章在三个蛋白质分类任务上对模型进行了评估:蛋白质位置预测、蛋白质功能预测(基于Gene Ontology分类)、蛋白质金属离子结合能力预测 作者将已有的数据集转化为类似于自然语言中的阅读理解问题来评价大语言模型。具体来说,每一条数据包含着一条蛋白质和一个问题,模型需要回答这个问题。

    37010编辑于 2023-12-26
  • 基于蛋白质语言模型蛋白质相互作用(PPI)的预测

    今天浅浅的更新一下使用esm2蛋白质语言模型预测蛋白质-蛋白质的相互作用 首先先补充一些预备知识: 预备知识点1: bert与Masked-Language-Model (MLM) loss 这两个箭头位置是等着模型 (可以是任意模型,可以是esm2蛋白质语言模型,whatever)去猜测这些位置的氨基酸是什么。 我们这次用 Meta AI 的 ESM-2 模型,通过计算一对蛋白序列在“掩码语言模型”(MLM)任务中的平均损失,来判断它们是否可能相互作用。 import linear_sum_assignment from transformers import AutoTokenizer, EsmForMaskedLM import torch 2.2定义模型蛋白质分词器 我们也可以选择优先对由上述结合位点预测模型预测出的结合位点进行掩码,因为已知蛋白语言模型会对结合残基及其他特殊残基给予更多关注。

    17610编辑于 2026-04-17
  • 来自专栏机器之心

    蛋白质语言模型 ProGen:在实验室合成由 AI 预测的蛋白质

    编辑 | 绿萝 人工智能已经将蛋白质工程研究的时间缩短了数年。深度学习语言模型在各种生物技术应用中显示出前景,包括蛋白质设计和工程。 他们开发出一种名为 ProGen 的蛋白质工程深度学习语言模型。ProGen 接受了来自公开的已测序天然蛋白质数据库中的 2.8 亿个原始蛋白质序列的训练,从头开始生成人工蛋白质序列。 它们学习复杂表示的能力对于有效地利用指数级增长的多样化和相对未注释的蛋白质数据来源可能是至关重要的——公共数据库包含数百万个未对齐的原始蛋白质序列 ProGen:蛋白质语言模型 受到基于深度学习的自然语言模型的成功启发 ,该研究团队开发了 ProGen,这是一种蛋白质语言模型,在数百万个原始蛋白质序列上训练,可生成跨多个家族和功能的人造蛋白质。 ProGen 以这种无监督的方式从一个大型、多样的蛋白质序列数据库中进行训练,学习了一种通用的、域独立的蛋白质表示,它包含局部和全局结构基序,类似于学习语义和语法规则的自然语言模型

    83830编辑于 2023-02-23
  • Science | 蛋白质语言模型驱动的快速定向进化

    研究人员提出了 MULTI-evolve 框架,通过结合蛋白语言模型、上位性建模以及高效多位点突变构建技术,实现端到端的快速蛋白进化。 蛋白质功能由氨基酸序列决定,而长度为N的蛋白理论上存在20^N种可能序列,其中仅极少数具有目标功能。自然进化依靠漫长时间探索这些序列空间,而现代生物技术需要在更短时间内完成这一任务。 结果 框架构建与基准测试 研究人员首先验证蛋白语言模型集成策略在识别功能增强突变方面的能力。通过在大量深度突变扫描数据集上测试,发现组合多个语言模型预测能够显著提高命中率,并识别更多潜在有益突变。 通过语言模型预测与实验验证,首先获得多个功能增强单突变,然后系统测量其双突变组合以学习上位性结构。在此基础上模型预测包含5到7个突变的高阶组合,并选取最优候选进行实验测试。 通过语言模型筛选潜在有益突变并进行实验验证,获得一组既能提高表达又不损害结合的单突变。随后训练模型学习多目标上位性关系,并预测包含3至7个突变的候选抗体。

    38020编辑于 2026-03-03
  • 来自专栏DrugOne

    . | 利用语言模型设计蛋白质

    蛋白质语言模型从进化的多样序列中学习,已被证明是序列设计、变异效应预测和结构预测的强大工具。蛋白质语言模型的基础是什么,它们如何在蛋白质工程中应用呢? 蛋白质语言模型的基础 根本上,蛋白质语言模型旨在预测给定迄今为止收集的所有蛋白质序列数据,观察到特定蛋白质序列S的可能性有多大。 自回归语言模型生成和评分蛋白质 解码器模型有时被称为自回归语言模型,因为它们通过迭代地基于之前的输出预测下一个残基的方式进行训练,从而生成序列。 与自回归模型不同,掩蔽语言模型使用双向注意力,并考虑序列中的所有残基来进行预测(见图1b,编码器自注意力)。蛋白质序列的著名掩蔽语言模型示例包括ESM和ProtTrans模型家族。 掩蔽语言模型的注意力矩阵也被证明可以直接编码蛋白质结构,以残基-残基接触图的形式。除了结构特征外,掩蔽蛋白质语言模型还捕捉到生物物理特性、进化上下文和家族内的排列。

    59910编辑于 2024-03-26
  • 来自专栏DrugOne

    InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令

    大型语言模型以其在捕捉复杂模式(包括共同进化关系和潜在的蛋白质语言)方面的有效性而著称。 受此启发,作者利用受大型语言模型启发的跨模态对齐(cross-modality alignment)和指令微调(instruct fine-tuning)技术,将生成式蛋白质语言模型蛋白质结构指令对齐 作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。 作者提出的模型InstructPLM,采用了一个轻量级的交叉注意力层,将一个固定的蛋白质主链编码器与一个固定的蛋白质语言模型解码器对齐,旨在教授蛋白质语言模型按照蛋白质结构指令设计序列。 模型部分 InstructPLM的整体模型架构由三个部分组成:一个蛋白质语言解码器,一个蛋白质主链编码器,一个蛋白质结构到序列的adapter。

    45710编辑于 2024-06-04
  • 来自专栏智药邦

    Science|利用结构信息语言模型指导蛋白质的进化

    本文介绍了一种利用蛋白质结构骨架坐标增强的通用蛋白质语言模型(ESM-IF1),该模型展示了在无监督条件下指导蛋白质进化的能力,并在针对SARS-CoV-2病毒的治疗性抗体优化中取得了显著成果。 图1 用结构引导语言模型指导多种蛋白质的进化 蛋白质进化的挑战与现状 在生物进化过程中,蛋白质通过不断积累突变来适应环境变化。这些突变不仅改变了蛋白质的序列,还导致了相应的结构变化,进而影响其功能。 结构增强的蛋白质语言模型 为了应对上述挑战,研究人员开发了一种利用蛋白质结构骨架坐标增强的通用蛋白质语言模型--ESM-IF1。 本文的研究表明,利用蛋白质的序列和骨架结构坐标建立的反折叠蛋白质语言模型可以作为改进的先验知识,从而大大提高定向进化的效率。 此外,本研究还证明,尽管结构信息语言模型只在单链蛋白质上进行过训练,但通过其隐含学习结合特征的能力,ESM-IF1模型可以推广到多聚体蛋白质

    96510编辑于 2024-07-19
  • 来自专栏DrugAI

    Methods | 生物物理驱动的蛋白质语言模型:赋能蛋白质工程

    DRUGONE 基于进化数据训练的蛋白质语言模型已成为处理蛋白质序列、结构和功能预测问题的有力工具。然而,这些模型忽视了数十年来关于蛋白质功能的生物物理学研究。 METL 在小样本训练和位置外推等具有挑战性的任务中表现突出,并能在仅使用 64 个样本的情况下设计出功能性 GFP 变体,展示了基于生物物理学的蛋白质语言模型蛋白质工程中的潜力。 蛋白质序列可被视为一种信息丰富的语言,氨基酸的排列模式蕴含结构与功能的规律。蛋白质语言模型(PLMs)借鉴自然语言处理技术,学习序列中隐含的语义和低维表示,可广泛用于蛋白质工程。 结果 使用合成数据进行预训练 深度神经网络和语言模型正在推动蛋白质建模,但在低数据或外推任务中表现有限。研究人员提出利用分子模拟生成的合成数据,补充实验数据,从而在预训练阶段灌输生物物理知识。 讨论 研究人员提出的 METL 框架利用大规模分子模拟作为预训练信号,为蛋白质语言模型注入生物物理知识。

    18620编辑于 2026-01-06
  • . | 蛋白质蛋白质相互作用推断模型中使用预训练蛋白质语言模型的一个缺陷

    DRUGONE 随着预训练蛋白质语言模型(protein language models, pLMs)的广泛应用,越来越多基于 pLM 的方法被用于蛋白质蛋白质相互作用(PPI)推断任务。 该研究强调了在评估 pLM-based PPI 模型时建立更严格数据协议的重要性,并揭示了当前模型的关键局限。 蛋白质语言模型近年来成为推动蛋白功能预测和相互作用推断的重要工具。 pLM-based PPI 模型预测趋同现象 尽管不同 pLM 在架构与训练数据上差异较大,但研究人员发现,各 pLM-based PPI 模型在测试集上的预测结果高度一致。 这意味着当前多种 pLM-based 模型在 PPI 推断任务上可能学习到类似的模式。 图2:不同 pLM 模型预测一致性分析。 总体而言,尽管 pLM-based 模型在标准数据集上表现优越,但在跨物种预测与突变敏感性等关键场景下仍存在系统性局限。研究人员强调,在大规模基础模型时代,更严格的数据划分与评估协议应成为标准实践。

    14020编辑于 2026-03-03
  • 来自专栏智药邦

    Nat Mach Intel|用语言模型进行可控的蛋白质设计

    用于蛋白质设计的Transformer 最近NLP的革命性发展已经影响了一些开创性的蛋白质研究,一些研究已经将语言模型的概念应用于蛋白质序列。 第一个基于Transformer的蛋白质语言模型,ESM和TAPE,可以追溯到2019年。 最近,有几项工作发表,使用预先训练好的模型来生成蛋白质序列。虽然没有明确采用语言模型,但提到了两个从传统的蛋白质设计范式--基于搜索能量函数最小值--转向神经网络方法。 在基于Transformer的蛋白质语言模型中加入条件标签,不仅可以像以前的这些工作那样生成新的序列,而且有可能对这些蛋白质的特性进行控制。 通过提示语言模型产生定制序列的能力将是蛋白质研究中的一个变革性里程碑,但其实施并非没有挑战。监督序列标记的过程依赖于注释序列的质量。

    71640编辑于 2022-11-16
  • 来自专栏智药邦

    慕尼黑工业大学提出VespaG模型,通过专家知识引导的蛋白质语言模型进行蛋白质变异效应预测

    近年来,蛋白质语言模型蛋白质结构和功能预测的多个任务中表现优秀,将蛋白质语言模型应用到蛋白质变异效应预测中,有望进一步提升预测准确度。 GEMME是一个基于多序列比对的蛋白质变异效应预测模型,作者将GEMME作为专家模型,引导一个新的蛋白质语言模型的训练,使得这个新的语言模型能够准确预测蛋白质变异效应。 基于蛋白质语言模型的学生VespaG总体上比基于多序列比对的教师GEMME表现更好,更一致。然而,蛋白质语言模型表示空间中的偏差可能导致对某些蛋白质家族的预测不佳,例如预测病毒蛋白的准确性较低。 图4 案例分析 本文提出了VespaG,通过蛋白质语言模型学习专家方法预测的进化分数的简单映射函数,探索了蛋白质语言模型建模变异效应的可能性,其性能超过了现有的方法。 蛋白质语言模型的未来改进可能是开发针对病毒的微调步骤。

    52310编辑于 2024-12-31
领券