首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏新智元

    哈佛、哥大开源1600万组蛋白质序列,解决AlphaFold 2训练数据私有难题!

    实验方法 OpenProteinSet由超过1600万个独特的MSAs组成,这些MSAs是根据AIphaFold2论文中的程序生成的。 这一计数包括截至2022年4月PDB中所有14万个唯一链的MSAs,以及针对同一数据库为Uniclust30中的每个序列集群计算的1,600万个MSAs。 随后,产生了大约1600万个MSAs,每个集群一个。 为了创建一个不同的、深度的MSAs子集,研究者通过迭代去除代表性链出现在其他MSAs中最多的MSAs。 最后,他们剔除了相应MSAs少于200个序列的簇,只剩下270,262个MSAs。 总的来说,OpenProteinSet中的MSAs代表了超过400万小时的计算。 OpenProteinSet大大提高了分子机器学习社区可用的预计算MSAs的数量和质量,它可以直接应用于结构生物学中的各种任务。

    86710编辑于 2023-09-22
  • 来自专栏数据派THU

    蛋白质语言建模?伯克利RoshanRao157页博士论文《训练,评估和理解蛋白质序列的进化模型》

    长期以来,生物信息学一直寻求利用这种进化信号,通常以多重序列比对(MSAs)的形式,来推断新蛋白质的结构和功能。 一种新的方法操作在MSAs而不是单一序列,然后提出,并显示在几个下游任务达到最先进的性能。最后,讨论了这些方法在蛋白质设计中的应用。 本论文试图回答关于蛋白质序列语言建模的三个关键问题: 1.

    41520编辑于 2022-04-06
  • 来自专栏智能生信

    基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器

    作者 | 何文嘉 编辑 | 李仲深 摘要 1 介绍 2 背景 2.1 蛋白质语言模型 2.2 多序列比对 (Multiple Sequence Alignments, MSAs) 2.3 评估指标 3 2.2 多序列比对 (Multiple Sequence Alignments, MSAs) 多序列比对由一组进化相关的蛋白质序列组成。 在这些序列中,当我们试图使用ESM训练集构造MSAs时,Jackhmer在126个蛋白质中失效,也就是构造失败,所以最终只留下了14882个蛋白质序列。 Gremlin的性能;平均前5名的注意力头便可以使预测性能优于Gremlin;平均前10名的注意力头便可以使预测性能优于所有其他Transformer模型 + 回归,并接近Gremlin在给定最优MSAs MSA Only 最后,我们考虑只用MSAs而不是ESM-1b中的Transformer预训练模型来对 回归进行监督学习,而且和Gremlin基线使用的训练数据相同,结果是预测精度和Gremlin

    3.1K10发布于 2021-02-04
  • 来自专栏DrugOne

    Structure | 评估AlphaFold2在肽结构预测上的表现

    AF2是一种基于深度学习的蛋白质预测方法,使用多序列比对(MSAs)来预测基于共进化残基的蛋白质结构。RoseTTAFold通过类似的逻辑但不同的深度学习架构工作。 Omega-Fold是一种基于深度学习的方法,仅使用序列而不使用MSAs进行基于自然语言模型的预测。Omega-Fold在无法获得高质量MSAs的情况下表现出色。

    64010编辑于 2024-04-28
  • Windows 11 安装 SQLSERVER 出现问题解决

    Developer Edition 16.0.1000.6 否 是 SQL Server 2022 MSSQLSERVER MSAS16 Developer Edition 16.0.1000.6 否 是 SQL Server 2022 MSSQLSERVER MSAS16 Developer Edition 16.0.1000.6 否 是 SQL Server 2022 SQLSERVER MSAS16 Developer Edition 16.0.1000.6 否 是 SQL Server 2022 SQLSERVER MSAS16

    2.1K10编辑于 2025-04-23
  • 来自专栏张善友的专栏

    微软发布 Windows Server 2008 R2 with Service Pack 1 180天 评估版

    在安全的分支机构中支持 Managed Service Accounts(MSAs) Service Pack 1 将支持位于 DMZ(外围网络)中的域成员服务使用 Managed Service Accounts (MSAs)。

    1.2K60发布于 2018-01-30
  • 来自专栏全栈工程师修炼之路

    MsSQL2008R2安装基础流程笔记

    ASDATADIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Data" ; Analysis Services ASLOGDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Log" ; Analysis Services ASBACKUPDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Backup" ; Analysis Services ASTEMPDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Temp" ; Analysis Services ASCONFIGDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Config" ; 指定是否允许 MSOLAP

    2.8K20编辑于 2022-09-29
  • 来自专栏集智书童

    Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器!

    \tag{5} Observations 作者采用了遵循[6]的块状重建方法来进行量化优化,同时MBConvs和轻量级MSAs是EfficientViT的两个主要块。 作者从保留方程(4)中MSAs内的矩阵乘法(MatMuls)在全精度开始,以评估量化对MBConvs的影响。 Iii-A2 Observations on Quantization of Lightweight MSAs 当将轻量级MSAs中的方程(4)的矩阵乘法量化为8位时,作者遇到了显著更差的结果,表现为“ \tag{10} Log2 Quantization for Divisors in MSAs 如图4(a)和(b)所示,log2量化将为较小的值分配更多的箱,反之亦然。 这一固有特性与MSAs中除数的算法属性相一致,如第IV-A2节所述,小值表现出更高的量化敏感性。

    93210编辑于 2024-05-17
  • 来自专栏DrugOne

    PNAS | 蛋白质结构预测屈服于机器学习

    这些思想被纳入同源蛋白质的多序列比对(MSAs)中,这对所有预测算法都至关重要,包括AlphaFold。另一个基础性的统计概念涉及结构模板。 最重要的因素被证明是机器学习,它使得来自MSAs和模板以及其他数据的信息能够更加高效地被利用。尽管MSAs和模板的信息可以在单独的流程中使用,但它们也可以以交互方式同时使用。 其他关键特征包括一个新的架构,用于联合嵌入MSAs和成对特征;一个新的输出表示和相关的损失,可以实现准确的端到端预测;使用中间损失来实现迭代细化;以及涉及自我蒸馏的新的培训程序。 首先,网络的主干通过重复使用称为Evoformer的新型网络块来处理输入,最终表示经过处理的MSAs和残基对,并包含基于注意力的组件。

    67540编辑于 2023-11-13
  • 来自专栏程序你好

    微服务架构与传统SOA几个主要区别

    大多数MSAs依赖于两个协议——REST和简单消息传递(JMS, MSMQ)。 五、异构互操作性:SOA通过其消息传递中间件组件可进行异构协议互相调用。

    1.7K20发布于 2018-07-20
  • 来自专栏用户4866861的专栏

    GNSS信号发生器的功能

    其中GNSS的全称是全球导航卫星系统的英文简称,指所有的卫星导航系统,包括美国的GPS,中国的北斗卫星导航系统,俄罗斯的GLONASS,欧洲的GALILEO系统,以及全球卫星导航系统内所包含的日本的MSAS

    1.7K00发布于 2020-04-27
  • 来自专栏镁客网

    南工大团队研制的可重复使用纸墨组合,刷新现有印刷模式的同时降低了成本 | 黑科技

    首先,他们在滤纸上涂覆含有三联吡啶配体的聚合物薄膜以形成最初的纸,随后他们用不同的金属盐水溶液(MSAS)作为墨水来“进行书写”。

    56460发布于 2018-05-29
  • 来自专栏DrugOne

    ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习

    作者在此提出进化排名(EvoRank),这是一种结合从多序列比对(MSAs)中提取的进化信息的训练目标,用于学习更多样化的蛋白质表示。 基于序列的方法需要大型蛋白质数据库,并将多序列比对(MSAs)作为额外输入。然而,一个更严重且常被忽视的问题是,野生型准确性的提高可能与下游突变效果的性能不相关。 因此,作者提出了一种新的自监督训练目标EvoRank,该方法结合了多序列比对(MSAs)中的进化信息,以解决WT-mask SSL的局限性。

    42810编辑于 2024-06-19
  • 来自专栏DrugOne

    Nat Methods | OpenFold:对AlphaFold2重新训练提供了关于其学习机制和泛化能力的新见解

    OpenFold和AlphaFold2的训练需要一组蛋白质序列、多序列比对(MSAs)和结构。 作者从大约1500万个Uniclust MSAs中,选择了大约27万个多样且深度的MSAs,形成一个“自蒸馏”集;这种集合用于通过高质量预测来增强实验训练数据。 作者使用AlphaFold2预测了该集合中所有MSAs的蛋白质结构,并将它们与来自蛋白质数据库(PDB)的大约13.2万个唯一(64万个非唯一)实验结构结合,形成了OpenFold训练数据集。 这与原始AlphaFold2的消融研究结果一致,后者显示模板除非在MSAs较浅或完全不存在时,影响才最小。

    70520编辑于 2024-06-06
  • 来自专栏DrugOne

    Nat. Commun. | AlphaFold2进行高通量预测蛋白质构象分布

    尽管AF2传统上无法预测构象集合,研究人员发现,通过对输入的多序列对齐(MSAs)进行子样本抽样并增加预测次数,可以导致捕获来自同一序列的不同生理相关构象的结构集合。 由于AF2是通过解码共进化信号工作的,而且之前的工作已经表明,对多序列对齐(MSAs)进行子样本抽样可以准确预测同一蛋白质的不同构象,因此假设仅从序列数据中解码出构象抽样的某些指令似乎是合理的。 这些不同的AF2流程共享一个原则,即通过对MSAs进行子样本抽样,以调整不同结构域的共进化信号。在其标准实现中,AF2接受一个目标序列和相应的多序列对齐作为输入。

    70710编辑于 2024-04-28
  • 来自专栏Tom

    Alphafold2-I

    (reduced_dbs) or full genetic database config (full_dbs) (default: 'full_dbs') -p <use_precomputed_msas > Whether to read MSAs that have been written to disk.

    2K20编辑于 2022-11-21
  • 来自专栏智药邦

    分子结构预测新型多模态基础模型|Chai完成3000万美元融资,OpenAI参投

    这一特性使得Chai-1在预测蛋白质多聚体结构等任务上优于依赖MSAs的现有模型。此外,Chai-1还能结合实验约束条件,如表位图谱或交联质谱的数据,进一步提升其性能。

    71710编辑于 2024-09-18
  • 来自专栏DrugOne

    蛋白设计中的深度学习方法

    AlphaFold2通过整合多序列比对(MSAs;进化相关序列的结构化比对,可揭示保守残基和共进化模式)、结构模板、称为Evoformer的迭代注意力网络架构以及利用不变点注意力(IPA)机制来模拟空间关系的结构模块 AlphaFold2从UniRef90、BFD、Uniclust30和MGnify数据库获取同源序列并编译成MSAs。 ESMFold利用ESM-2直接从ESM-2派生的序列嵌入预测3D蛋白质结构,绕过了对MSAs的需求。 由于ESM-2派生的特征是一维的,而不是二维MSAs,折叠块在一维特征空间上执行标准的自注意力,而不是AlphaFold2的Evoformer中使用的轴向注意力。

    46300编辑于 2025-04-15
  • 来自专栏PaddlePaddle

    AI+Science:基于飞桨的AlphaFold2,带你入门蛋白质结构预测

    它们包括计算的MSAs、模型预测的蛋白结构、OpenMM优化后的结构、模型打分排序、原始模型输出、预测元数据和模型运行计时。 1,2,3,4,5}.pdb result_model_{1,2,3,4,5}.pkl timings.json unrelaxed_model_{1,2,3,4,5}.pdb msas msas/ 该目录中包含不同MSA搜索工具的输出文件。

    98820编辑于 2022-03-31
  • 来自专栏机器学习炼丹术

    alphaFold2 | 模型细节之特征提取(三)

    num_tokens = constants.NUM_AMINO_ACIDS, num_embedds = constants.NUM_EMBEDDS_TR, max_num_msas = self.token_emb(seq) if exists(seq_embed): x += seq_embed # mlm for MSAs i j d', i = n, j = n) x = x + template_pooled # add template angle features to MSAs Always(0) 这里num_tokens为21,dim为256,zheli 这里用到了nn.embedding(),作用就是为每一种氨基酸构建一个对应的词向量,下图为运行过程: # mlm for MSAs

    1.4K20编辑于 2022-11-22
领券