B细胞和T细胞上的受体暗示免疫系统正在针对什么。名为Mal-ID的人工智能方法提高了诊断准确性,特别是针对自身免疫性疾病。
你的免疫系统储存了一生中遇到的威胁的信息——一份生物学的坏人名片库。通常,犯罪分子是你征服过的病毒和细菌;另一些则是像疫苗这样的卧底,旨在触发保护性免疫反应,甚至是被免疫学交火捕获的健康组织的红鲱鱼。
现在,斯坦福医学院的研究人员制定了一种挖掘这个丰富内部数据库的方法来诊断多种不同的疾病,从糖尿病到COVID-19反应,再到流感疫苗。尽管他们设想这种方法可以同时筛查多种疾病,但基于机器学习的技术也可以优化为检测复杂且难以诊断的自身免疫性疾病,如红斑狼疮。
在对近600人的研究中——一些是健康的,其他则是感染了包括COVID-19在内的疾病或患有红斑狼疮和1型糖尿病等自身免疫性疾病——研究人员开发的算法,名为Mal-ID(用于免疫学诊断的机器学习),仅基于他们的B细胞和T细胞受体序列和结构,成功识别了每个人的疾病。
“我们今天使用的诊断工具包并没有充分利用免疫系统对其所遇到疾病的内部记录,”博士后学者马克西姆·扎斯拉夫斯基(Maxim Zaslavsky)说。“但我们的免疫系统不断用B细胞和T细胞监视我们的身体,这些细胞像分子威胁传感器。结合免疫系统两个主要分支的信息,给我们提供了更完整的免疫系统对疾病反应及自身免疫和疫苗反应路径的图景。”
扎斯拉夫斯基和埃琳·克雷格(Erin Craig)是此项研究的主要作者,研究于2月20日发表在《科学》杂志上。病理学教授斯科特·博伊德(Scott Boyd)和遗传学及计算机科学副教授安舒尔·昆达杰(Anshul Kundaje)是这项研究的资深作者。
除了帮助诊断棘手疾病,研究人员相信Mal-ID还可以跟踪癌症免疫治疗的响应,并以帮助指导临床决策的方式对疾病状态进行亚分类。
“我们所研究的几种疾病在生物学或分子水平上可能有显著不同,但我们用的一般术语并不一定能解释免疫系统的专业反应,”博伊德说,他共同指导肖恩·N·帕克过敏和哮喘研究中心。“Mal-ID可以帮助我们识别这些特定疾病的亚分类,从而为我们提供什么样的治疗最有助于某人疾病状态的线索。”
解码蛋白质的语言
在一种跟随点的方式中,科学家们使用基于大型语言模型(类似于支撑ChatGPT的技术)的机器学习技术,聚焦于免疫细胞T细胞上的威胁识别受体和由另一种免疫细胞B细胞产生的抗体(也称为受体)的商业部分。这些语言模型在书籍和网站等大型数据集中寻找模式。经过足够的训练,它们可以利用这些模式预测句子中的下一个词,以及其他任务。
在本研究中,科学家们应用了一种经过蛋白质训练的大型语言模型,将数百万个B细胞和T细胞受体序列输入其中,并用于将具有关键特征(由模型确定)的受体归类在一起,这可能暗示相似的结合偏好。这样做可能会揭示出导致个体免疫系统动员的触发因素——产生出一支装备齐全的T细胞、B细胞和其他免疫细胞的军队,以攻击真实及感知的威胁。
“这些免疫受体的序列变异极大,”扎斯拉夫斯基说。“这种变异性帮助免疫系统检测几乎任何事物,但也让我们更难解读这些免疫细胞所针对的内容。在这项研究中,我们询问是否可以通过一些新的机器学习技术解码免疫系统的这些疾病遭遇记录,来解释这些高度变异的信息。这一想法并不新颖,但我们一直缺乏一种强大的方法来捕捉这些免疫受体序列中表明免疫系统所反应的模式。”
B细胞和T细胞代表了免疫系统的两个独立分支,但它们制造识别感染因子或需要消除的细胞的蛋白质的方式是相似的。简而言之,细胞基因组中的特定DNA片段被随机混合和匹配——有时还加入额外突变来增添变化——以创造编码区域,当蛋白质结构组装时,可以生成数万亿个独特的抗体(在B细胞的情况下)或细胞表面受体(在T细胞的情况下)。
这一过程的随机性意味着这些抗体或T细胞受体并不针对任何特定分子来识别入侵者的表面。但它们令人眼花缭乱的多样性确保至少会有一些与几乎任何外来结构结合。(自身免疫性,或免疫系统对自身组织的攻击,通常——但并不总是——通过T细胞和B细胞在早期发育中经历的条件化过程避免,从而消除问题细胞。)
结合的行为刺激细胞制造更多的自身以进行全面攻击;随后具有匹配相似三维结构的受体细胞的增加,提供了免疫系统所针对的疾病或状况的生物学指纹。
为了验证他们的理论,研究人员组建了一个包含超过1600万个B细胞受体序列和超过2500万个T细胞受体序列的数据集,涉及593人,这些人属于六种不同的免疫状态:健康对照、感染了SARS-CoV-2(导致COVID-19的病毒)或HIV的人、最近接种流感疫苗的人,以及患有红斑狼疮或1型糖尿病(这两者都是自身免疫性疾病)的人。扎斯拉夫斯基及其同事随后利用他们的机器学习方法寻找同一疾病患者之间的共性。
“我们比较了片段使用频率、最终产生的蛋白质的氨基酸序列以及模型对受体‘语言’的表示方式等其他特征,”博伊德说。
T细胞和B细胞的结合
研究人员发现,T细胞受体序列提供了关于红斑狼疮和1型糖尿病的最相关信息,而B细胞受体序列在识别HIV或SARS-CoV-2感染或近期流感疫苗接种方面则最具信息性。然而,在每一种情况下,结合T细胞和B细胞的结果都增加了算法准确归类患者疾病状态的能力,无论性别、年龄或种族。
“传统方法有时难以找到看起来不同但识别相同目标的受体组,”扎斯拉夫斯基说。“但这正是大型语言模型的优势所在。它们能够像掌握英语语法和语境一样,学习免疫系统的语法和特定语境线索。通过这种方式,Mal-ID能为这些序列生成一种内部理解,为我们提供未曾拥有的洞察。”
尽管研究人员只在六种免疫状态上开发了Mal-ID,但他们设想该算法可以迅速调整以识别许多其他疾病和状况的特定免疫标志。他们尤其对自身免疫性疾病,如红斑狼疮,感兴趣,这些疾病往往难以准确诊断和有效治疗。
“患者可能经过多年的折磨才能得到诊断,即便如此,我们给予这些疾病的名称也像是宽泛的术语,忽视了复杂疾病背后的生物学多样性,”扎斯拉夫斯基说。“如果我们可以利用Mal-ID揭示红斑狼疮或类风湿关节炎背后的异质性,那将对临床有很大影响。”
Mal-ID可能还帮助研究人员识别许多疾病的新治疗靶点。
“这种方法的美在于,即使我们一开始不完全了解免疫系统所针对的分子或结构,它仍能发挥作用,”博伊德说。“我们仍然可以通过观察人们反应的相似模式来获取信息。而且,通过深入研究这些反应,我们可能会发现新的研究和治疗方向。”
来自瑞士热带和公共卫生研究所、巴塞尔大学、俄克拉荷马州医学研究基金会、宾夕法尼亚大学、辛辛那提大学、辛辛那提儿童医院医疗中心、麦迪逊山伊坎医学院、杜克大学、瑞典医疗中心、华盛顿大学、系统生物学研究所、哈佛T.H.陈公共卫生学院、贝斯以色列迪肯尼斯医疗中心、纽约大学和美国狼疮基金会的研究人员参与了这项工作。
本研究由国家卫生研究院资助(拨款R01AI130398、R01AI127877、U19AI057229、U54CA260518、U19AI167903、5R01 EB001988-16、UM-1 AI100645、UM1 AI144371、AI 101093、AI-086037、AI-48693、R01AI153133、R01AI137272、3U19AI057229-17W1 COVID SUPP2、AR07375、UM1AI144292、NIDDK P30DK116074、U54CA260518、U19AI167903、R01 AI175771-01、R01 CA264090-01、U19 AI057229和1U54CA26051),国家科学基金会、巴罗克·威尔康基金、阳光基金、亨利·古斯塔夫·弗洛伦信托基金、伊娃·格罗夫的慈善捐赠以及一位匿名捐赠者的慈善捐赠。