拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
健康利用人工智能,研究人员预测几乎任何蛋白质在人体细胞内的位置

利用人工智能,研究人员预测几乎任何蛋白质在人体细胞内的位置

研究人员开发了一种新的机器学习方法,当给定相关的氨基酸序列时,可以自动预测任何人类细胞系中蛋白质的具体位置,达到单细胞水平。这一进展可能帮助临床医生识别某些疾病,简化药物发现的过程,并为生物学家提供对蛋白质突变影响的新见解。

通过对蛋白质和细胞行为的联合理解进行训练,该模型可以帮助诊断疾病和开发新药。

位于细胞错误位置的蛋白质可能导致多种疾病,例如阿尔茨海默病、囊性纤维化和癌症。但是在单个人体细胞中大约有70,000种不同的蛋白质和蛋白质变体,由于科学家们通常只能在一次实验中测试少数几种,因此手动识别蛋白质位置极其昂贵且耗时。

新一代计算技术旨在通过利用跨多个细胞系包含数千种蛋白质及其位置信息的数据集的机器学习模型来简化这一过程。其中最大的这样的数据集之一是人类蛋白质图谱,它记录了超过13,000种蛋白质在40多种细胞系中的亚细胞行为。但尽管它庞大,人类蛋白质图谱仅探索了数据库中所有蛋白质与细胞系之间可能配对的约0.25%。

现在,来自麻省理工学院、哈佛大学和布罗德研究所的研究人员开发了一种新的计算方法,可以有效地探索剩余的未开发空间。他们的方法可以预测任何蛋白质在任何人类细胞系中的位置,即使该蛋白质和细胞以前都没有进行过实验。

他们的技术比许多基于人工智能的方法更进一步,通过在单细胞水平上定位蛋白质,而不是在特定类型的所有细胞中进行平均估计。例如,这种单细胞定位可以准确指出在治疗后特定癌细胞中蛋白质的位置。

研究人员结合了蛋白质语言模型和一种特殊类型的计算机视觉模型,以捕捉有关蛋白质和细胞的丰富细节。最终,用户会收到一幅细胞图像,突出显示模型预测的蛋白质位置。由于蛋白质的定位表明其功能状态,这项技术可以帮助研究人员和临床医生更有效地诊断疾病或识别药物靶点,同时还使生物学家更好地理解复杂生物过程如何与蛋白质定位相关。

“您可以在计算机上进行这些蛋白质定位实验,而无需接触任何实验台,希望能为自己节省数月的努力。尽管仍然需要验证预测,但这项技术可以作为实验验证时的初步筛选,”麻省理工学院计算与系统生物学项目的研究生及本研究论文的共同第一作者Yitong Tseo说道。

Tseo与共同第一作者Xinyi Zhang(电气工程与计算机科学系的研究生和Eric和Wendy Schmidt中心)、来自MIT和哈佛的布罗德研究所的Yunhao Bai,以及高级作者Fei Chen(哈佛助理教授和布罗德研究所成员)和Caroline Uhler(EECS和数据、系统和社会研究所的Andrew和Erna Viterbi工程教授,布罗德研究所Eric和Wendy Schmidt中心主任及麻省理工学院信息与决策系统实验室的研究员)共同撰写了这篇论文。该研究今天发表在《自然方法》上。

协作模型

许多现有的蛋白质预测模型只能基于它们所训练的蛋白质和细胞数据进行预测,或者无法精确定位单细胞内蛋白质的位置。

为克服这些局限性,研究人员创建了一种由两个部分组成的未知蛋白质亚细胞位置预测方法,称为PUPS。

第一部分利用蛋白质序列模型来捕捉蛋白质的定位决定特性及其基于组氨酸链的3D结构。

第二部分结合了图像修补模型,旨在填补图像缺失的部分。这个计算机视觉模型查看三幅细胞的染色图像,以获取关于该细胞状态的信息,例如其类型、个体特征及其是否处于压力之下。

PUPS将每个模型创建的表示结合起来,预测蛋白质在单细胞中的位置,利用图像解码器输出一幅突出的图像,显示预测的位置。

“同一细胞系内的不同细胞表现出不同的特性,我们的模型能够理解这种细微差别,”Tseo说。

用户输入组成蛋白质的氨基酸序列和三幅细胞染色图像——一幅用于细胞核,一幅用于微管,另一幅用于内质网。然后PUPS完成其余部分。

更深入的理解

研究人员在训练过程中使用了一些技巧来教导PUPS如何将来自每个模型的信息结合在一起,以便它能够对蛋白质的位置做出有根据的猜测,即使它之前没有见过该蛋白质。

例如,他们在训练过程中给该模型分配了一项次要任务:明确命名定位的区室,例如细胞核。这个任务与主要的图像修补任务并行进行,以帮助模型更有效地学习。

一个好的比喻可能是老师要求学生一边写上他们的名字,一边画出花的所有部分。发现这个额外步骤有助于模型提高对可能细胞区室的总体理解。

此外,PUPS同时在蛋白质和细胞系上进行训练,这有助于它更深入地理解蛋白质在细胞图像中倾向于定位的位置。

PUPS甚至能够独立理解蛋白质序列的不同部分如何分别影响其整体定位。

“大多数其他方法通常要求您首先有该蛋白质的染色结果,因此您已经在训练数据中见过它。我们的方法的独特之处在于它能够同时在不同蛋白质和细胞系之间进行泛化,”Zhang说。

由于PUPS可以泛化到未见过的蛋白质,因此它能够捕捉人类蛋白质图谱中未包含的独特蛋白质突变驱动的定位变化。

研究人员通过进行实验室实验并比较结果验证了PUPS能够预测未见细胞系中新蛋白质的亚细胞位置。此外,与基线人工智能方法相比,PUPS在它们测试的蛋白质上表现出平均更低的预测误差。

未来,研究人员希望增强PUPS,以便该模型能够理解蛋白质-蛋白质相互作用并预测细胞内多个蛋白质的定位。从长远来看,他们希望使PUPS能够在活的人体组织中进行预测,而不是培养的细胞。

这项研究得到了布罗德研究所Eric和Wendy Schmidt中心、国家卫生研究院、国家科学基金会、Burroughs Welcome基金、Searle Scholars基金会、哈佛干细胞研究所、Merkin研究所、海军研究办公室和能源部的资助。