CRISPR 技术在过去二十年取得的突破使生物学家能够改进 DNA 的操作,对其进行切片和切块,以创造适合特定目的的生物体。 然而,这种随心所欲的基因编辑产生了一个新问题:如何组织不同编辑的 DNA 片段的所有复杂性。
这对于价值数千亿美元的生物制剂药物市场尤其重要,生物制剂基本上是可以实现特定目的的工程蛋白质。 如果你打算通过 CRISPR 设计新的蛋白质,你需要以系统的方式进行,这是一个相当苛刻的组合问题。
因此,一些聪明的年轻生物技术人员正在转向人工智能的深度学习形式,因为深度学习是一种喜欢组合问题的技术。
去年上市的生物技术公司 Absci 由首席执行官肖恩·麦克莱恩 (Sean McClain) 在十年前创立,他想出了一种新方法,将大肠杆菌细胞设计成工厂,用于生产制药商需要的定制蛋白质,例如单克隆抗体 可以对抗病毒。 你可以说麦克莱恩是蛋白质制造领域的埃隆·马斯克。
更大的制造能力带来了一个新问题:究竟要制造什么。
在上市前不久,Absci 收购了另一家初创公司 Denovium,这家成立三年的公司开创了深度学习,分析 McClain 的细胞可以产生的所有蛋白质组合。
Absci 首席技术专家 Matthew Weinstock 在通过 Zoom 与 ZDNet 会面时解释说:“我们已经为这些基因部分建立了一个非常大的图书馆,我们可以将它们组合在一起。” “而哪种DNA序列最适合产生这种蛋白质,就是密码子优化的问题,是一个非常大的挑战。”
“如果我们有一百万到十亿个不同的细胞系,我们需要一种筛选能力,使我们能够通过它们从大海捞针中找出这些基因设计是正确的。”
不仅蛋白质的制造是一项组合挑战,而且确定哪种蛋白质将作为特定疾病的生物制剂也是药物发现的基本问题。
Weinstock 说:“我们可以随机化蛋白质序列本身,并询问哪种蛋白质序列最适合与这个特定目标结合。”
拥有犹他大学生物化学博士学位的 Weinstock 之前曾在初创公司 Synthetic Genomics, Inc. 负责下一代疗法的开发。在那里,他遇到了加州大学圣地亚哥分校的生物工程博士 Gregory J. Hannum . Hannum 将继续创建 Denovium 以构建深度学习工具。
在一年前收购之后,Hannum 与他的 Denovium 联合创始人 Ariel Schwartz 一起成为 Absci 人工智能研究的联合负责人。
“生物学是地球上最复杂的问题之一,”汉纳姆在接受 ZDNet 采访时说。
“它本质上是一个自我引导的系统,经过数十亿年的发展,如果我们能够理解所有不同的字母是什么,以及它们的组合是什么,我们将拥有巨大的力量来设计新药并帮助人类在新的 方法。”
生物学领域通过湿实验室观察建立了“美丽的数据库”,Hannum 指出,例如 UniProt 数据库或 Universal Protein Resource,它由世界各地的研究中心联盟维护,并由一群 政府办公室,包括美国国立卫生研究院和国家科学基金会。
尽管有这些漂亮的数据库,尽管使用隐马尔可夫模型等技术进行了基本分析,但三分之一的蛋白质在其功能方面仍然是个谜。
为了尝试解开这个谜团,Denovium 建立了一个巨大的模型来同时处理所有蛋白质。
“我们没有建立数十万个小模型,而是建立了一个可以直接从序列到功能的深度学习模型。”
这个巨大的模型有所谓的“嵌入”,这是一种“非常普遍化”的蛋白质表示,Hannum 说。 可以将其视为将关于蛋白质的已知信息压缩到一组可以重现关于任何蛋白质的已知信息的点。
“这给了我们很多优势,”Hannum 说。 “我们可以注释蛋白质,”意思是,对它们的功能提出假设,“其中很多功能从未被理解过。”
此外,它还可以通过寻找与已知蛋白质具有相似特性的功能同源物,找到氨基酸序列仍未知的新型蛋白质。
该模型还可以预测改变氨基酸序列可能产生的影响。 “你知道它具有 DNA 结合特性;如果我改变这个碱基会怎样,”意思是氨基酸碱基,Hannum 说。
“科学家们花了几十年的时间来建造 Uniprot,”他说。 借助 Denovium 模型,Absci 可以在周末对 Uniprot 数据库重新运行其预测。 “我们可以产生大量的新信息。”
Denovium 不只是研究蛋白质; 它还构建了一个名为 Gateway 的程序来连接 DNA 和蛋白质。 Gateway 在一个模型中连接 DNA 和蛋白质表示,让科学家“拖放整个基因组,找到每个蛋白质,并注释它们的功能,所有这些都在一个模型中,这仍然是最先进的,”Hannum 说。
进入 Absci 后,Hannum 和 Schwartz 面临的挑战从仅仅注释 DNA 和蛋白质转变为解决 Weinstock 正在处理的制造问题。
一个例子是寻找新的“伴侣蛋白”,即指导蛋白质折叠的蛋白质。 汉纳姆说,“我们可以通过感知已知和未知之间的相似性,找到我们所知道的,并找到更多”。 “而不是仅仅找到它们的列表,我们实际上可以将它们表征为功能组,说它们是相似的,并构建与它们如何帮助其他蛋白质折叠相关的所有蛋白质的完整图谱。”
Weinstock 说,该功能“非常独特”。 它使 Absci 的蛋白质产量提高了两倍多。
在这种情况下,正确的伴侣蛋白不是任何人认为在使用传统生物信息学工具时会起作用的蛋白。 “这是一种功能未知的蛋白质,来自一种不知名的根细菌,”温斯托克说。 “但模型实际上告诉我们这可能是一个伴侣,它促使我们尝试一下。”
为了在 Denovium 建立巨型模型,Hannum 和 Schwartz 从他所谓的“相当原始”的方法开始,使用卷积神经网络或 CNN,这是图像识别的主力。
由于这些早期的努力,该团队接受了 Transformers,谷歌开发的基于注意力的大型模型,以及“周围的许多架构”。 他说,变形金刚完成的那种自然语言处理可以通过多种方式补充图像识别。
这与 DeepMind 的蛋白质折叠程序 AlphaFold 相呼应,该程序在去年夏天的第二个版本中从使用卷积转向使用基于注意力的模型。
“NLP 领域和视觉领域已经分道扬镳,但我觉得可以从每一方面学到更多东西,”Hannum 说。 “我们真的希望结合两全其美。”
根据 Hannum 的说法,蛋白质的理想代表是“我们目前正在评估的东西,去哪里”。 他说,最初的表示形式“是扁平的;它是一种仿射”,意思是一种抽象形式,简单地说多个事物是相关的,以便尽可能广泛。
“[Denovium] 引擎的目的是创建一个非常非结构化的表示,因为它可以灵活地包含任意上下文——结构、同源性,一切——它包含向量空间中的一切。” 他说,另一种描述方式是“蛋白质宇宙中每种蛋白质的不完全高斯分布,点云”。
(如果你想更具体地了解这种表示,你可以查看 Hannum 和 Schwartz 在 Synthetic Genomics 上发表并发表在 BioRxiv 上的一篇论文,描述了一种叫做“深度语义蛋白质注释分类和探索”的东西。 )
人们想知道的是损失函数,即 Denovium 引擎凭借其广泛的功能变得更好的方式。 “我们的损失函数很多,”Hannum 说,“它是高度多任务的;我们相信这是泛化的关键。”
这包括学习蛋白质如何在给定区域折叠的标签。 但它也学习序列聚类组来检测蛋白质之间的同源性。 他说,有“特定于字母”的输出告诉 Absci,给定某个氨基酸碱基,蛋白质是否可能正在做一些事情,例如充当细胞的膜蛋白。
考虑到 Absci 有一个复杂的管道需要解决,这些不同类型的任务中的每一个都可以在研究的任何时候占据主导地位。 所以,更大的问题变成了,Absci 的奖励信号是什么? 什么告诉公司它将在开发正确的生物制品的细胞系方面取得真正的进展。
换句话说,什么是最佳而不是简单的进步?
“这是一个奇妙的问题,”汉纳姆说,“这是一个我们非常热衷于证明的问题。”
他倾向于将目标视为缩小搜索空间以全面推进药物发现任务。 这意味着,“你的起点有多好?我们可以缩小范围吗?”
例如,“很高兴得到一个为项目做出贡献的新伴侣,但如果我们可以说,下次尝试这些伴侣,其中一个将成为新的赢家,你可以看到持续的改进 随着时间的推移。”
Weinstock 指出,给定抗体的组合问题,跨越其 60 多个残基,其可能性比已知宇宙中的原子还要多。 在他看来,Denovium 引擎的价值在于在细胞系制造和药物发现中找到湿实验室不会考虑的那些东西。
“这些技术将使我们能够扩展到原始细胞库中甚至不存在的解决方案,”他说,“能够说,这种抗体序列是最佳的——你甚至没有测试它, 但模型能够预测它,或者这是最好的细胞系,或者这是最好的核糖体结合位点。”
最终的目标是为 Absci 的大部分(如果不是全部)工作转向计算机模拟方法,在这种情况下,越来越少的工作需要在单调乏味的湿实验室完成。
“我们的愿景是拥有能够直接解决问题的东西,”Hannum 说。 “你问它,我必须处理这个,然后计算机设计抗体和制造溶液,在很短的时间内,你已经把溶液扔进罐子里制造你的药物了。”
正如 Weinstock 所见,“如果我们能够在湿实验室中消除二次筛选活动中几个月的工作,”并将其转化为我们可以在周末解决的计算问题,我们不仅会获得更好的产出 ,但我们会更快地得到这些。”
作为迄今为止进展的证明,Weinstock 和 Hannum 指出在生物制剂开发中超越已发表的深度学习方法的能力。 例如,去年在苏黎世 deepCDR Biologics 和苏黎世联邦理工学院的科学家在自然生物医学工程上发表的一项研究使用深度学习来解决某些抗体是否会与其疾病靶点(抗原)结合的问题。
但是,Absci 在一项内部案例研究中声称,其深度学习不仅能够预测抗体结合的是或否的答案,而且还能量化结合“亲和力”的程度。
该公司在给 ZDNet 的电子邮件中说:
Absci 的模型(连同其专有的湿实验室分析)超越了“最先进的技术”,展示了对抗体/抗原相互作用亲和力的高性能定量预测。 以“Kd”(解离常数)来衡量,这本质上是衡量抗体与其抗原结合程度的指标,也是药物功能的关键决定因素。 因此,该模型允许 Absci 在计算机上设计具有所需目标结合亲和力的新抗体。
Absci 方法继续赢得皈依者。 截至 9 月,该公司拥有 9 个所谓的“活动项目”,在这些项目中,公司已经与各种客户“谈判或预期谈判下游里程碑和特许权使用费的许可协议”。
随后,在 10 月,它与位于马萨诸塞州剑桥的制药公司 EQRx 签署了一项多项目发现协议。 周五,该公司宣布已与制药巨头默克公司建立研究合作关系,以设计“生产适合默克公司生物制造应用的酶”。 两家公司表示,该协议包括默克公司最终“指定最多三个药物发现目标”的前景。
该公告使该股周五上涨了 26%。
Absci 告诉 ZDNet,它将“在未来的披露中”更新其活跃项目的总数。 该公司将于太平洋时间 1 月 10 日星期一中午 12:45 出席 J.P. Morgan 的医疗保健会议,您可以进行直播。
尽管如此,世界仍在等待宣布 A.I. Weinstock 承认,这导致了一种以前不可能出现的药物。
“就在临床上看到使用其中一些技术设计的分子而言,我认为我们可能还需要两年时间,”Weinstock 说。