【导读】装载新MSA引擎的fastAF2来了,效率加速近百倍!助力蛋白质3D结构生成,催化生物AI计算全生态。
一直以来,研发周期长、研发投入成本高、成功率低都是新药研发领域的“三座大山”,而据相关机构统计,使用AI技术能够极大缩短药物发现时间,节约大量药物临床试验时间。
毫无疑问,AI制药正在成为药物研发的有力工具。
过去,业界认为数据是AI的主要瓶颈。幸运的是,近年来,计算生物学获得了海量的生物数据,数据几乎是在以指数级的速度增长。然而,在给各种预测算法带来大量可用数据的同时,也给同源序列搜索带来极大的挑战。
传统方法应用在亿级数据库上会消耗大量的资源及时间,例如多序列联配(Multiple Sequence Alignment, MSA)搜索是AlphaFold2(以下简称“AF2”) 结构预测管线中最耗时的一环,极大地限制了AI在蛋白质结构预测中的开发和应用。
为此,智峪生科团队联合港中文与复旦开发了一套能够高速提升 MSA 构建速度的算法——fastMSA[1]。基于智峪生科自研的torchAF2-3D模块,结合fastMSA,我们成功打造了fast AlphaFold2方法(以下简称fastAF2)。fastAF2的出现,将AF2从学术应用推向工业应用奠定了坚实的基础。
这是一条前人未曾开拓的道路,它将带来“海啸”般的工业应用突破。
01
「fastAF2」新方法突破构建MSA高耗时、低通量难题
MSA 本质上属于序列对齐问题,也就是找到一种对齐方式以最大化两个序列之间的相似性。但相比经典的序列对齐问题,MSA 要同时考虑序列数据库中的所有序列之间的相似性,需要从整个搜索空间中识别出全部可能的对齐方式,因此复杂许多。
最流行的传统 MSA 构建方法是渐进比对算法。该方法使用系统树来比对多个序列,然后将获得的比对应用于调整树。科学家们设计了一些方法来构建全局成对对齐并引入基于树的渐进策略,包括 ProbCons、T-Coffee 和 ClustalW。但是,这些方法速度慢,只能处理小规模数据。
Steinegger 等人设计了维特比算法的单指令多数据向量化实现版本来对齐蛋白质序列,从而加速了搜索方法 HHsearch 和 HHblits。同样,这些方法也往往只能处理较小的数据库。
最近提出的 AF2需要获取 UniProt 数据库中每个蛋白质的 MSA,该数据库包含 2.5 亿个序列,从而能够提高比对质量。但是,AF2默认使用的搜索方法非常缓慢。
因此,开发一种能够有效地完成超大型数据库的搜索方法以在相对较短的时间内执行 MSA 任务,对于广大客户来说,是应用落地之急。
02
自研超高速fastAF2工具推进AF2落地
针对无法面向大型数据库和耗时长的难题,智峪生科团队与合作者共同提出了一种与以往所有方法正交的新方法。由查询序列编码器和上下文序列编码器组成的fastMSA 框架可以显著提高多序列比对的可扩展性和速度。
时间是药物研发的生命线,也是制约AI应用于蛋白质结构预测的重要因素。对比传统方法, fastMSA对于前 100k 序列的扫描实现了 93 倍的加速。因而大大缩减JackHMMER 的搜索时间。更重要的是,当需要处理的序列池越大时,理论上fastMSA的加速效果越明显。
同时,在头对头的对比中,智峪生科运用 fastMSA 构建的 MSA 与AF2默认构建的MSA(蛋白质三维结构最优方案)之间进行了正面比较。如果该点远低于对角线,则默认 MSA 对蛋白质建模效果更好。下图可见大部分点都在对角线上,表明 fastMSA 几乎没有丢失预测精度,且运行时间极大地减少!
注意:(X 轴显示默认最优方法构建的 MSA 的性能,而 Y 轴显示使用文中构建的 MSA 的预测精度)
性能测试表明, fastMSA的单序列的 MSA 构建的平均时间大约为50s~60s,相比AF2的MSA构建有着十分显著的提升。作为引擎,智峪生科这全新的MSA算法可极大地提升fastAF2的计算效率。此外,智峪生科团队还针对AF2的工作流做了针对性的优化,高通量性能也得以大幅提升。搭配fastMSA的单轮计算的高效率,智峪生科希望fastAF2最终能让工业生产从中获益,这也是智峪生科一贯的理念、策略和坚持。
在fastAF2与AF2的案例对比中,AF2作为蛋白质三维结构最优方案,但计算耗时较多,所以尚未被广泛用于工业体系。fastAF2模型的训练将在蛋白质结构高通量模拟方面带来新的希望。在一个长度为655的蛋白,AF模型耗时11个小时,而智峪生科的fastAF2模型近需6分钟就能将目标蛋白筛选出来,加速了110倍!此外,fastAF2现有流程已经整合到了ZCloud工作流系统,高度自动化的训练将是未来大规模广泛应用的基础。
智峪生科的fastAF2技术极大地缩短了单个序列预测的耗时,在长度为1000及以下的序列预测可在10分钟内完成,同时保证精度几乎不丢失。
如何体验
如果有蛋白质结构预测或设计需求,智峪生科欢迎广大的科研人士以合作的方式与智峪生科一同开展工作。对fastAf2开发感兴趣的伙伴可以直接通过邮箱与智峪生科取得联系,联系方式见文章最后部分,用户只需要通过邮箱注册即可体验fastAF2。
03
全生态提速的ZCloud——完善、超越、探索
高速高通量的fastAF2仅是智峪生科的ZCloud集成系统中的重要软件之一。
ZCloud(峪云)集成系统是智峪生科打造的全球领先的AI制药的基础设施技术/服务。平台提供包括超大规模并行蛋白质结构预测、蛋白复合体预测、分子动力学模拟、药物筛选、自由能微扰、分子属性预测等临床前药物发现阶段各类场景的完整方案,提供一站式的计算服务。
运用全生态提速的ZCloud系统,智峪生科将不断完善、超越、探索更多产品落地的可能性……
04
ZCloud助力AI在药物发现与合成生物学领域落地
目前,智峪生科仅成立一年,已有超过 50+ 知名制药企业与学术机构深度使用了ZCloud,完成了50多万个蛋白结构的预测,并用于加速从病毒结构预测到合成生物制品等重要现实世界问题的进展。
在助力农业方面,智峪生科联合农科院基因组所就经济作物番茄进行合作研发,帮助农业界提高经济作物产量;此外,还和中国农业大学瞄准畜牧业,就各类经济动物的免疫开展落地研究。
在助力药物研发方面,智峪生科在猴痘肆虐期间第一时间公布了猴痘全基因蛋白组,帮助科研人员提高工作效率。在猴痘全基因组分析的基础上,通过可视化图对病毒进行观察、筛选、标记,相关成果已发表在国际期刊AMM,受到业内广泛赞誉,并被李兰娟院士的最新力作引用(https://link.springer.com/article/10.1007/s11684-022-0952-z)。
在合成生物学领域,智峪生科通过自研的开世界领先的前沿算法,与天津工生所针对植物中一类高经济价值的酶开展落地研究,推动新酶的发现与合成。
在微生物领域,智峪生科与中科院青藏高原所就青藏高原相关生态体系的落地应用;与中国海洋大学就海洋微生物进行合作;此外,还与深圳先进院合成所合作探索AF2预测的蛋白结构组在微生物组功能研究中的应用。
总而言之,智峪生科利用ZCloud系统通过新药发现与合成来改善医学、能源、环境等相关领域,这些研究或将改变与重塑世界的方方面面。
05
智峪生科计算无极限,探索无止境
尽管计算技术和基础理论在快速发展,但AI的计算耗时长和成本高的问题依然存在。ZCloud系统的出现为工业级的精确蛋白质结构建模与设计构建了通路,给大规模的蛋白质3D结构设计带来新的工业化的突破。这种突破不仅体现在从慢到快的量变上,更体现在从0到1的质变上——此前受限于计算时间和成本而无法选出更多更优的结构,此后将能够被更深入挖掘,填补了业内工业级建模空白,真正实现将学术应用AF2推向工业建设。
作为“新一代AI驱动合成生物学设计生产”研究范式的先行者,智峪生科的全生态模式给ZCloud提供了生的契机,而“为云而生”的团队将源源不绝地给ZCloud注入新动力,锚定全生态加速的主航向,做工业级的突破和创新。
(来源:新视线)