搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏新智元
哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！
实验方法 OpenProteinSet由超过1600万个独特的MSAs组成，这些MSAs是根据AIphaFold2论文中的程序生成的。这一计数包括截至2022年4月PDB中所有14万个唯一链的MSAs，以及针对同一数据库为Uniclust30中的每个序列集群计算的1,600万个MSAs。随后，产生了大约1600万个MSAs，每个集群一个。为了创建一个不同的、深度的MSAs子集，研究者通过迭代去除代表性链出现在其他MSAs中最多的MSAs。最后，他们剔除了相应MSAs少于200个序列的簇，只剩下270,262个MSAs。总的来说，OpenProteinSet中的MSAs代表了超过400万小时的计算。 OpenProteinSet大大提高了分子机器学习社区可用的预计算MSAs的数量和质量，它可以直接应用于结构生物学中的各种任务。
86710编辑于 2023-09-22
来自专栏数据派THU
蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》
长期以来，生物信息学一直寻求利用这种进化信号，通常以多重序列比对(MSAs)的形式，来推断新蛋白质的结构和功能。一种新的方法操作在MSAs而不是单一序列，然后提出，并显示在几个下游任务达到最先进的性能。最后，讨论了这些方法在蛋白质设计中的应用。本论文试图回答关于蛋白质序列语言建模的三个关键问题: 1.
41520编辑于 2022-04-06
来自专栏智能生信
基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器
作者 | 何文嘉编辑 | 李仲深摘要 1 介绍 2 背景 2.1 蛋白质语言模型 2.2 多序列比对 (Multiple Sequence Alignments, MSAs) 2.3 评估指标 3 2.2 多序列比对 (Multiple Sequence Alignments, MSAs) 多序列比对由一组进化相关的蛋白质序列组成。在这些序列中，当我们试图使用ESM训练集构造MSAs时，Jackhmer在126个蛋白质中失效，也就是构造失败，所以最终只留下了14882个蛋白质序列。 Gremlin的性能；平均前5名的注意力头便可以使预测性能优于Gremlin；平均前10名的注意力头便可以使预测性能优于所有其他Transformer模型 + 回归，并接近Gremlin在给定最优MSAs MSA Only 最后，我们考虑只用MSAs而不是ESM-1b中的Transformer预训练模型来对回归进行监督学习，而且和Gremlin基线使用的训练数据相同，结果是预测精度和Gremlin
3.1K10发布于 2021-02-04
来自专栏DrugOne
Structure | 评估AlphaFold2在肽结构预测上的表现
AF2是一种基于深度学习的蛋白质预测方法，使用多序列比对（MSAs）来预测基于共进化残基的蛋白质结构。RoseTTAFold通过类似的逻辑但不同的深度学习架构工作。 Omega-Fold是一种基于深度学习的方法，仅使用序列而不使用MSAs进行基于自然语言模型的预测。Omega-Fold在无法获得高质量MSAs的情况下表现出色。
64010编辑于 2024-04-28
Windows 11 安装 SQLSERVER 出现问题解决
Developer Edition 16.0.1000.6 否是 SQL Server 2022 MSSQLSERVER MSAS16 Developer Edition 16.0.1000.6 否是 SQL Server 2022 MSSQLSERVER MSAS16 Developer Edition 16.0.1000.6 否是 SQL Server 2022 SQLSERVER MSAS16 Developer Edition 16.0.1000.6 否是 SQL Server 2022 SQLSERVER MSAS16
2.1K10编辑于 2025-04-23
来自专栏张善友的专栏
微软发布 Windows Server 2008 R2 with Service Pack 1 180天评估版
在安全的分支机构中支持 Managed Service Accounts（MSAs） Service Pack 1 将支持位于 DMZ（外围网络）中的域成员服务使用 Managed Service Accounts （MSAs）。
1.2K60发布于 2018-01-30
来自专栏全栈工程师修炼之路
MsSQL2008R2安装基础流程笔记
ASDATADIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Data" ; Analysis Services ASLOGDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Log" ; Analysis Services ASBACKUPDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Backup" ; Analysis Services ASTEMPDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Temp" ; Analysis Services ASCONFIGDIR="D:\Program Files\Microsoft SQL Server\MSAS10_50.MSSQLSERVER\OLAP\Config" ; 指定是否允许 MSOLAP
2.8K20编辑于 2022-09-29
来自专栏集智书童
Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器！
\tag{5} Observations 作者采用了遵循[6]的块状重建方法来进行量化优化，同时MBConvs和轻量级MSAs是EfficientViT的两个主要块。作者从保留方程（4）中MSAs内的矩阵乘法（MatMuls）在全精度开始，以评估量化对MBConvs的影响。 Iii-A2 Observations on Quantization of Lightweight MSAs 当将轻量级MSAs中的方程(4)的矩阵乘法量化为8位时，作者遇到了显著更差的结果，表现为“ \tag{10} Log2 Quantization for Divisors in MSAs 如图4（a）和（b）所示，log2量化将为较小的值分配更多的箱，反之亦然。这一固有特性与MSAs中除数的算法属性相一致，如第IV-A2节所述，小值表现出更高的量化敏感性。
93210编辑于 2024-05-17
来自专栏DrugOne
PNAS | 蛋白质结构预测屈服于机器学习
这些思想被纳入同源蛋白质的多序列比对（MSAs）中，这对所有预测算法都至关重要，包括AlphaFold。另一个基础性的统计概念涉及结构模板。最重要的因素被证明是机器学习，它使得来自MSAs和模板以及其他数据的信息能够更加高效地被利用。尽管MSAs和模板的信息可以在单独的流程中使用，但它们也可以以交互方式同时使用。其他关键特征包括一个新的架构，用于联合嵌入MSAs和成对特征；一个新的输出表示和相关的损失，可以实现准确的端到端预测；使用中间损失来实现迭代细化；以及涉及自我蒸馏的新的培训程序。首先，网络的主干通过重复使用称为Evoformer的新型网络块来处理输入，最终表示经过处理的MSAs和残基对，并包含基于注意力的组件。
67540编辑于 2023-11-13
来自专栏程序你好
微服务架构与传统SOA几个主要区别
大多数MSAs依赖于两个协议——REST和简单消息传递(JMS, MSMQ)。五、异构互操作性:SOA通过其消息传递中间件组件可进行异构协议互相调用。
1.7K20发布于 2018-07-20
来自专栏用户4866861的专栏
GNSS信号发生器的功能
其中GNSS的全称是全球导航卫星系统的英文简称，指所有的卫星导航系统，包括美国的GPS，中国的北斗卫星导航系统，俄罗斯的GLONASS，欧洲的GALILEO系统，以及全球卫星导航系统内所包含的日本的MSAS
1.7K00发布于 2020-04-27
来自专栏镁客网
南工大团队研制的可重复使用纸墨组合，刷新现有印刷模式的同时降低了成本 | 黑科技
首先，他们在滤纸上涂覆含有三联吡啶配体的聚合物薄膜以形成最初的纸，随后他们用不同的金属盐水溶液（MSAS）作为墨水来“进行书写”。
56460发布于 2018-05-29
来自专栏DrugOne
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
作者在此提出进化排名（EvoRank），这是一种结合从多序列比对（MSAs）中提取的进化信息的训练目标，用于学习更多样化的蛋白质表示。基于序列的方法需要大型蛋白质数据库，并将多序列比对（MSAs）作为额外输入。然而，一个更严重且常被忽视的问题是，野生型准确性的提高可能与下游突变效果的性能不相关。因此，作者提出了一种新的自监督训练目标EvoRank，该方法结合了多序列比对（MSAs）中的进化信息，以解决WT-mask SSL的局限性。
42810编辑于 2024-06-19
来自专栏DrugOne
Nat Methods | OpenFold：对AlphaFold2重新训练提供了关于其学习机制和泛化能力的新见解
OpenFold和AlphaFold2的训练需要一组蛋白质序列、多序列比对（MSAs）和结构。作者从大约1500万个Uniclust MSAs中，选择了大约27万个多样且深度的MSAs，形成一个“自蒸馏”集；这种集合用于通过高质量预测来增强实验训练数据。作者使用AlphaFold2预测了该集合中所有MSAs的蛋白质结构，并将它们与来自蛋白质数据库（PDB）的大约13.2万个唯一（64万个非唯一）实验结构结合，形成了OpenFold训练数据集。这与原始AlphaFold2的消融研究结果一致，后者显示模板除非在MSAs较浅或完全不存在时，影响才最小。
70520编辑于 2024-06-06
来自专栏DrugOne
Nat. Commun. | AlphaFold2进行高通量预测蛋白质构象分布
尽管AF2传统上无法预测构象集合，研究人员发现，通过对输入的多序列对齐（MSAs）进行子样本抽样并增加预测次数，可以导致捕获来自同一序列的不同生理相关构象的结构集合。由于AF2是通过解码共进化信号工作的，而且之前的工作已经表明，对多序列对齐（MSAs）进行子样本抽样可以准确预测同一蛋白质的不同构象，因此假设仅从序列数据中解码出构象抽样的某些指令似乎是合理的。这些不同的AF2流程共享一个原则，即通过对MSAs进行子样本抽样，以调整不同结构域的共进化信号。在其标准实现中，AF2接受一个目标序列和相应的多序列对齐作为输入。
70710编辑于 2024-04-28
来自专栏Tom
Alphafold2-I
(reduced_dbs) or full genetic database config (full_dbs) (default: 'full_dbs') -p <use_precomputed_msas > Whether to read MSAs that have been written to disk.
2K20编辑于 2022-11-21
来自专栏智药邦
分子结构预测新型多模态基础模型｜Chai完成3000万美元融资，OpenAI参投
这一特性使得Chai-1在预测蛋白质多聚体结构等任务上优于依赖MSAs的现有模型。此外，Chai-1还能结合实验约束条件，如表位图谱或交联质谱的数据，进一步提升其性能。
71710编辑于 2024-09-18
来自专栏DrugOne
蛋白设计中的深度学习方法
AlphaFold2通过整合多序列比对(MSAs；进化相关序列的结构化比对，可揭示保守残基和共进化模式)、结构模板、称为Evoformer的迭代注意力网络架构以及利用不变点注意力(IPA)机制来模拟空间关系的结构模块 AlphaFold2从UniRef90、BFD、Uniclust30和MGnify数据库获取同源序列并编译成MSAs。 ESMFold利用ESM-2直接从ESM-2派生的序列嵌入预测3D蛋白质结构，绕过了对MSAs的需求。由于ESM-2派生的特征是一维的，而不是二维MSAs，折叠块在一维特征空间上执行标准的自注意力，而不是AlphaFold2的Evoformer中使用的轴向注意力。
46300编辑于 2025-04-15
来自专栏PaddlePaddle
AI+Science：基于飞桨的AlphaFold2，带你入门蛋白质结构预测
它们包括计算的MSAs、模型预测的蛋白结构、OpenMM优化后的结构、模型打分排序、原始模型输出、预测元数据和模型运行计时。 1,2,3,4,5}.pdb result_model_{1,2,3,4,5}.pkl timings.json unrelaxed_model_{1,2,3,4,5}.pdb msas msas/ 该目录中包含不同MSA搜索工具的输出文件。
98820编辑于 2022-03-31
来自专栏机器学习炼丹术
alphaFold2 | 模型细节之特征提取（三）
num_tokens = constants.NUM_AMINO_ACIDS, num_embedds = constants.NUM_EMBEDDS_TR, max_num_msas = self.token_emb(seq) if exists(seq_embed): x += seq_embed # mlm for MSAs i j d', i = n, j = n) x = x + template_pooled # add template angle features to MSAs Always(0) 这里num_tokens为21，dim为256,zheli 这里用到了nn.embedding(),作用就是为每一种氨基酸构建一个对应的词向量，下图为运行过程： # mlm for MSAs
1.4K20编辑于 2022-11-22

第 2 页第 3 页

点击加载更多

哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器

Structure | 评估AlphaFold2在肽结构预测上的表现

Windows 11 安装 SQLSERVER 出现问题解决

微软发布 Windows Server 2008 R2 with Service Pack 1 180天评估版

MsSQL2008R2安装基础流程笔记

Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器！

PNAS | 蛋白质结构预测屈服于机器学习

微服务架构与传统SOA几个主要区别

GNSS信号发生器的功能

南工大团队研制的可重复使用纸墨组合，刷新现有印刷模式的同时降低了成本 | 黑科技

ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习

Nat Methods | OpenFold：对AlphaFold2重新训练提供了关于其学习机制和泛化能力的新见解

Nat. Commun. | AlphaFold2进行高通量预测蛋白质构象分布

Alphafold2-I

分子结构预测新型多模态基础模型｜Chai完成3000万美元融资，OpenAI参投

蛋白设计中的深度学习方法

AI+Science：基于飞桨的AlphaFold2，带你入门蛋白质结构预测

alphaFold2 | 模型细节之特征提取（三）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

哈佛、哥大开源1600万组蛋白质序列，解决AlphaFold 2训练数据私有难题！

蛋白质语言建模？伯克利RoshanRao157页博士论文《训练，评估和理解蛋白质序列的进化模型》

基于Transformer预训练的蛋白语言模型是无监督的蛋白质结构学习器

Structure | 评估AlphaFold2在肽结构预测上的表现

Windows 11 安装 SQLSERVER 出现问题解决

微软发布 Windows Server 2008 R2 with Service Pack 1 180天 评估版

MsSQL2008R2安装基础流程笔记

Trio-ViT | 专门针对高效 ViTs 的卷积 Transformer混合架构的加速器！

PNAS | 蛋白质结构预测屈服于机器学习

微服务架构与传统SOA几个主要区别

GNSS信号发生器的功能

南工大团队研制的可重复使用纸墨组合，刷新现有印刷模式的同时降低了成本 | 黑科技

ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习

Nat Methods | OpenFold：对AlphaFold2重新训练提供了关于其学习机制和泛化能力的新见解

Nat. Commun. | AlphaFold2进行高通量预测蛋白质构象分布

Alphafold2-I

分子结构预测新型多模态基础模型｜Chai完成3000万美元融资，OpenAI参投

蛋白设计中的深度学习方法

AI+Science：基于飞桨的AlphaFold2，带你入门蛋白质结构预测

alphaFold2 | 模型细节之特征提取（三）

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

微软发布 Windows Server 2008 R2 with Service Pack 1 180天评估版