扎克伯格和陈的 Biohub 推出强大的人工智能来预测结构和开发治疗性蛋白质

Mark Zuckerberg

Mark Zuckerberg - 照片Field / Shutterstock.com

由马克·扎克伯格和普莉希拉·陈创立的公司 Biohub 宣布推出新的先进人工智能模型。这项技术经过精心训练,可以深入研究蛋白质生物学,旨在设计在治疗中更有用、更精确的分子结构。该倡议的正式宣布直接在公司网站上发布,标志着生物医学研究迈出了重要一步。

蛋白质是生命的重要组成部分,发挥着至关重要的作用,例如在体内输送氧气和对抗病毒入侵者。它们对于肌肉的形成、细胞的调节和免疫系统的增强以及协调广泛的生物过程也至关重要。然而,即使在预测其复杂结构方面取得了进展,许多蛋白质仍然没有被完全研究,它们的具体功能仍然是科学上的一个谜。

新一代进化阶梯模型(ESM)

该公司正在推出新一代进化规模模型(ESM),这是“进化规模模型”的缩写。这个创新系统通过模拟自然进化的过程从蛋白质序列中学习。然后,这种内在知识被用来以数字方式表示、绘制、预测,最重要的是,更准确地设计蛋白质。

    ESM 系统围绕三个主要工件进行连接,每个工件均针对特定且互补的功能而设计:
  • ESMFold2:一种最先进的模型,擅长预测蛋白质的三维结构,是设计具有所需特性的新蛋白质的基石。
  • ESM Atlas:一张综合图谱,对 68 亿个蛋白质序列以及 11 亿个先前预测的结构进行了编目,创建了一个庞大的生物数据库。
  • ESMC:一种尖端的蛋白质语言模型,对从整个生命多样性中收集的约 28 亿个蛋白质序列进行了精心训练,增强了您的分子理解。

根据Biohub发布的信息,该AI模型能够极大地协助开发能够与特定分子靶点结合的蛋白质。该技术能够设计具有高结合亲和力的蛋白质,这是创新疗法成功的重要特征。初步结果针对肿瘤学和免疫学领域的五个高度相关的目标进行了验证。该公司坚信这是蛋白质设计领域的变革时刻,有可能彻底改变药物开发方式。

ESMC模型工作机制

ESMC 代表了一项正在进行的研究项目的最新成果,该项目的起源可以追溯到 2019 年。当时,科学家团队成功开发了第一个基于 Transformer 架构的语言模型,专门用于分析蛋白质序列。该模型的强化训练过程旨在内化控制蛋白质复杂生物学的内在基本特性。

这些特性涵盖了决定蛋白质如何折叠成特定三维形状以及它们如何与细胞环境中其他分子相互作用的基本规则。此外,该模型试图了解这些蛋白质如何发挥其重要的生物学功能。预测和理解这些机制的能力是操纵和设计具有治疗或工业应用的新蛋白质的决定性一步。

蛋白质是复杂的大分子,其基本结构由线性氨基酸链组成。当这些氨基酸以特定序列组合在一起时,它们可以形成巨大且几乎无限范围的结构组合。这些氨基酸在链中的特定顺序是引导分子折叠成独特且高度特异性的三维构型的决定因素。

反过来,这种特殊的三维结构精确地定义了蛋白质在生物体中执行的确切生物功能。在最初的研究阶段,研究人员有了一个相关的发现:所开发的模型能够学习和处理超越单纯氨基酸序列的信息。他们展示了编码蛋白质结构和生物功能的能力,包括在训练期间从未向模型明确展示或教授的属性。

治疗潜力和精准医学

在深入学习蛋白质复杂的生物模式后,人工智能模型表现出了高精度预测这些分子的三维形状的非凡能力。除了预测其结构外,他还成功破译了其基本的生物学功能,更创新的是,生成了新的蛋白质。整个过程完全发生在计算环境中,大大加快了研究速度。

这些先进的功能对于未来的医学应用具有巨大的变革潜力。在该模型的帮助下,设计一种结合特定分子靶标、具有强度和选择性的理想组合的蛋白质变得更接近现实。这意味着有可能开发出更大的治疗潜力,并且比费时费力的传统生化方法要快得多。

这项技术进步极其重要,特别是考虑到当前基于蛋白质(例如用于抗癌的抗体)创建治疗方法的情况。目前,科学家必须投入大量时间来确定哪种特定蛋白质与正确的靶标结合,此外还要确保这种结合精确有效地发生。这是所谓的“精准医学”的基础,寻求高度个性化的治疗。

然而,众所周知,蛋白质发现和验证的传统过程极其昂贵且通常耗时。借助Biohub的人工智能,可以在短时间内虚拟模拟大量蛋白质。然后,该技术可以预测哪些药物最有可能对特定目标有效,从而显着优化新药研发的资源和时间。

肿瘤学和免疫学的验证和测试

为了凭经验验证所开发系统的功能和有效性,Biohub 研究人员选择了一组与癌症、肿瘤生长和免疫系统复杂功能直接相关的蛋白质。选择了 EGFR、PD-L1 和 CTLA-4 等临床相关靶点,它们是多种肿瘤和免疫病理学中的关键生物标志物,代表着重大挑战。

然后人工智能被指示生成数以万计的候选蛋白质。这个庞大的过程在大约两天内完成,主要目的是测试这些蛋白质中的哪些能够表现出针对先前选择的特定目标的最佳相互作用和亲和力。随后,计算系统计算出哪种生成的蛋白质最稳定并且最有可能发展成可行且安全的治疗方法。

研究的详细结果表明,应用于人工智能的计算能力的提高使得蛋白质设计的成功率有了相当大的提高。对于使用传统方法的抗体来说,这种优化尤其值得注意和重要,因为这些抗体被认为更难以以必要的精度结合到各自的靶标上。这证明了计算方法固有的可扩展性和有效性。

随后,由人工智能设计和选择的性能最佳的蛋白质经过严格的实验室测试,模拟真实的生物条件。其中一些已被证明具有正确结合定义目标的有效能力。此外,它们表现出所需的稳定性,证明了它们的具体治疗潜力和作为未来候选药物的可行性。

Biohub 强调,虽然疾病遵循常见的生物学模式,但其中很大一部分具有个体特征,需要个性化的治疗方法。对于某些疾病,例如癌症和罕见疾病,该技术的立即应用潜力是巨大且有前途的。该公司证明,ESM 模型可以在几天内为五个临床相关目标设计经过实验室验证的蛋白质配体。这项工作极大地改变了药物开发过程初始阶段的速度,使先进工具的获取变得民主化。

另见