
自AlphaFold破解蛋白质折叠难题以来,结构生物学可谓一日千里。如今,AI已经具备了从头设计蛋白质的能力。
设计蛋白质能催生各种新材料、新药物和新食品等,被称为“万亿试炼场”,吸引了各商业巨头纷纷入局。然而,赛道的成型需要汇聚无数研究成果。长期以来,算力需求大、技术门槛高和流程复杂等困难阻碍了大量研究者进行更深入的蛋白质研究。

9月2日,致力于蛋白质生命科学研究的天壤XLab在世界人工智能大会上发布了基于AI的蛋白质设计工作台 CREATOR,旨在为蛋白质研究者提供系统性支持,一站式解决算法、数据和算力问题,加速蛋白质设计工作的大规模开展和落地。
“我们期待未来会有数以万计的按需设计的蛋白质从CREATOR工作台上产出。”天壤XLab负责人苗洪江博士介绍。
All in One
AI for Science时代,人们借助各类AI工具加速科学研究。苗洪江博士介绍,天壤CREATOR希望能够提供一种全新的科研范式,一站式解决算法、数据、算力以及科研流程复杂等所有难题,通过简单的操作,就能完成结构预测、蛋白质设计、特性分析和优化的各项任务。

“我们在研究过程中,发现AI能够为蛋白质设计提供前所未有的生成能力,这将使新药研发从发现转变为发明。抗体、多肽、酶也可以用这一全新的方式设计出来。这无疑会开启一个充满想象力的蛋白质世界,我们希望借助这个工作台,能有更多的科研工作者一起加入进来。”天壤创始人、首席执行官薛贵荣博士表示。
基于该平台,研发人员能以项目的形式,对原本零散的任务进行分类和串联,管理从项目规划到结果分析的整个流程,大幅提升研发效率。
CREATOR工作台是天壤XLab在蛋白质领域的积淀,内置了大量自主研发的优质算法。
以蛋白质结构预测为例,平台可提供多种解决方案。其中自研最新的TRFold-Single核心算法,可以让用户直接从单序列生成预测结构,该算法在对“de novo 86测试集”进行预测评测时,平均分达86.2,优于AlphaFold2的82.6分。而自研基于共进化信息(MSA)的单链结构预测核心算法TRFold,可实现与冷冻电镜解析相仿精准度。
平台也能实现复合体的结构预测与分析,其核心算法使用空间采样的增强方式增加训练数据多样性,启发式地搜索解决多链错配和蛋白质手性问题。通过分子动力学力场优化结合表面原子结构,获得准确的蛋白质相互作用信息,去绘制细胞内蛋白质相互作用通路图。
除了自研的各种优质算法,CREATOR还内置了其它开源和合作伙伴的算法,供大家自由选择,实现一个平台就能完成所有研究任务,告别为不同任务寻找不同算法的科研局面。
http://mpvideo.qpic.cn/0bc3xyabkaaafyal3raspfrvbpwdcw7aafia.f10002.mp4?
以新冠病毒刺突蛋白的结构预测任务为例,用户从构建项目、选择算法、启动预测,操作流畅简洁,在任务完成后可以对预测结果进行可视化和分析。
http://mpvideo.qpic.cn/0bc3qiabkaaakqalyjysm5rvbawdcwbaafia.f10002.mp4?
在执行设计任务时,用户只需要添加设计目标的功能蛋白(motif)信息,在任务结束后就可以查看同时生成的多项设计结果,选取最适合的候选蛋白进行下一步优化。
流程操作简单,人人可用、易用,且无需安装,在线登陆账号就能启用所有功能,可以广泛的应用于多肽、酶、抗体和各类功能蛋白质,研发人员可以在工作台上完成蛋白质的全部计算工作。
“我们也在不断的扩充工作台上的功能和算法,建设蛋白质知识图谱和扩展已有的功能motif库,进一步降低蛋白质设计的门槛,使CREATOR真正成为人人可用的设计工作台。”天壤XLab苗洪江博士介绍。
蛋白质研究:
CREATOR是一个新起点
天壤XLab的AI算法从战胜围棋世界冠军朴廷桓、到城市交通管理实现南昌不限行、再到原子精度级的蛋白质结构预测,见证了人工智能在越来越复杂的系统中展现出的惊人实力。
去年,天壤XLab完成从感知到创造的进阶,端到端地进行蛋白质的从头设计,带来一个全新的蛋白质世界。如今,天壤XLab推动蛋白质研究由单点走向集合,以发布CREATOR工作台作为新起点,希望帮助研发人员更便捷地投入到蛋白质的研究工作中去。
目前,天壤XLab已经实现了蛋白质从头设计的多项进展:如新冠刺突蛋白结合剂的设计,最大程度地包含了整个结合界面作为motif来进行设计,能有效阻止刺突蛋白和人体ACE2蛋白结合,并有希望普适性地应对各种新冠变种。

在更困难的多配体蛋白质设计方向,天壤XLab从头设计生成的IL2类似蛋白质,不仅能够包含激活淋巴细胞的motif,也因无法与CD25结合避免了天然蛋白的毒性。此前,天然IL2在激活淋巴细胞产生抗肿瘤活性的同时会激活Treg细胞产生免疫抑制和毒性,很多药企在尝试对天然IL2进行改造,但还没有获得临床成功。
在多表位的抗原蛋白质设计方向,RSV病毒会引起肺部和呼吸道感染,对婴幼儿产生极大危害,而这种病毒的表面融合蛋白在融合前后会产生较大的构象变化,导致疫苗开发一直无法获得成功。天壤XLab在工作台上将融合蛋白上两个已知的抗原表位成功设计成一个约90个氨基酸的稳定蛋白质,在结构分析中能够看到设计蛋白质可以很好的呈递抗原表位。
据了解,天壤XLab已经在推进多项湿实验流程,将基于CREATOR工作台的研究成果转换为实际效用,推动AI+蛋白质领域的发展。
惠及每一位研究者
“蛋白质世界的空间巨大、功能丰富,100氨基酸的蛋白质可能序列是 20^100 ~ 1.3×10^130,相比之下,通过进化得来的天然蛋白质只是其中非常微小的子集。未知空间中还有很多可能解决医疗健康、能源环保等挑战的功能蛋白质没有被触及。”天壤XLab负责人苗洪江介绍。
从20世纪90年代开始,研发人员设计蛋白质的能力随着对蛋白质结构的深入了解不断提升。在只有几百个结构信息,只能手动设计简单的二级结构片段开始起步。
随着PDB中结构信息数据的增加,科学家们从这些结构信息中总结出理论经验和能量函数,从而设计出了越来越复杂、越来越多样的蛋白质结构。
现在,AI能够不再依赖人为经验或者能量函数,而是自主完成全流程的设计工作,得益于AI对蛋白质序列、结构与功能之间深层关联的强大解析能力。
薛贵荣博士表示:“我们相信蛋白质研究与生命科学本身存在最底层的关联。此前,靠人力无法穷尽的生命谜团在今天有望通过AI得以实现,我们希望通过这个共同研究的平台,汇聚所有人的力量,通过不断地深入研究,最终能够揭开这一底层秘密。”
天壤XLab将于10月1日正式上线CREATOR工作台,届时将面向全国高校免费开放,登入天壤XLab官网即可注册,随时随地开展蛋白质研究工作,共同推动蛋白质设计和AI生物计算的发展和应用落地。
--------- End ---------