拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
健康“可解释的”人工智能破解粘性蛋白质的秘密语言

“可解释的”人工智能破解粘性蛋白质的秘密语言

一种人工智能工具在翻译蛋白质用以决定其是否形成类似于阿尔茨海默病及其他五十种人类疾病相关的粘性团块的语言方面取得了进展。这种新工具CANYA与典型的“黑箱”人工智能模型不同,能够解释其决策,揭示驱动或防止有害蛋白折叠的特定化学模式。

这项发现今天在《科学进展》杂志上发表,得益于迄今为止最大规模的蛋白质聚集数据集。该研究为粘性蛋白质的分子机制提供了新的见解,这些蛋白质与全球五亿人受影响的疾病有关。

蛋白质聚集或淀粉样聚集是一种健康隐患,会干扰正常细胞功能。当蛋白质中的某些区域相互粘附时,蛋白质会增长为致病性纤维状团块。

虽然这项研究对加速神经退行性疾病的研究有一定的影响,但它的更直接影响将体现在生物技术领域。许多药物是蛋白质,它们常常受到不必要的聚集的困扰。

“蛋白质聚集是制药公司面临的一个主要难题,”研究的共同通讯作者、加泰罗尼亚生物工程研究所(IBEC)小组领导者贝内达·博洛涅西博士表示。

“如果治疗性蛋白质开始聚集,生产批次可能会失败,造成时间和金钱的损失。CANYA可以帮助指导工程抗体和酶的努力,这些抗体和酶更不容易粘在一起,从而减少过程中的昂贵挫折,”她补充道。

蛋白质团块是利用一种尚不完全理解的语言形成的。蛋白质由二十种不同类型的氨基酸组成。与通常构成DNA语言的字母A、C、G、T不同,蛋白质的语言有二十个不同的字母,不同组合形成“单词”或“动机”。

研究人员长期以来一直试图解码哪些动机组合导致聚集,以及哪些动机使蛋白质能够无误折叠。将氨基酸视为神秘语言字母的人工智能工具可以帮助识别负责的精确单词或动机,但关于蛋白聚集的数据质量和数量在历史上一直很少或限制在非常小的蛋白片段上。

这项研究通过进行大规模实验来应对这一挑战。研究的作者从头创建了超过100,000个完全随机的蛋白质片段,每个片段由20个氨基酸组成。每个合成片段在活酵母细胞中的聚集能力得到了测试。如果某个特定片段触发了聚集形成,酵母细胞的生长将有某种方式变化,研究人员可以测量这些变化以确定因果关系。

每五个蛋白质片段中大约有一个(21,936/100,000)导致了聚集,而其余的则没有。与之前的研究可能追踪的少量序列不同,新的数据集捕捉到更多不同的蛋白质变体,这些变体可能引起淀粉样聚集。

“我们创造了真正随机的蛋白质片段,包括许多自然界中不存在的版本。进化只探索了所有可能蛋白质序列的一小部分,而我们的方法帮助我们窥探到了更大可能性的银河,为理解聚集行为的一般规律提供了大量数据点,”研究的第一作者、基因组调控中心(CRG)博士后研究员迈克·汤普森解释道。

实验生成的大量数据用于训练CANYA。研究人员决定依据“可解释人工智能”的原则创建它,使其决策过程对人类透明和易于理解。这意味着牺牲了一点预测能力,而这种能力通常在“黑箱”人工智能中更高。尽管如此,CANYA的准确性比现有模型高出约15%。

具体而言,CANYA是一个卷积注意力模型,这是一种借用人工智能两个不同领域的混合工具。卷积模型,如图像识别中使用的,扫描照片中耳朵或鼻子的特征以识别面孔,而在这种情况下,CANYA会扫描蛋白质链以寻找动机或“单词”等有意义特征。

注意力人工智能模型被语言翻译工具用来识别句子中的关键短语,然后决定最佳翻译。研究人员将此技术融入CANYA,以帮助其确定在整个蛋白质的宏观结构中哪些动机最重要。

这两种方法结合起来,使CANYA能够近距离观察局部动机,同时还发现它们在更大图景中的重要性。研究人员可以利用该信息,不仅预测蛋白质链中的哪些动机促进聚集,哪些动机阻止聚集,或二者之间的某种情形,还可以理解原因。

例如,CANYA显示,小块疏水氨基酸更有可能引发聚集,而某些动机在蛋白质序列的开头时对聚集的影响更大,而不是在结尾时。这些观察结果与研究人员在显微镜下观察到的已知淀粉样纤维的发现相符。

但是,CANYA也发现了推动蛋白质聚集的新规则。例如,某些蛋白质的构建块,所谓的带电氨基酸,通常被认为可以防止聚集。但事实证明,在其他特定构建块的背景下,它们实际上可以促进聚集。

在目前的形式中,CANYA主要以是与否的方式解释蛋白质聚集,即它作为一种所谓的“分类器”运作。研究人员接下来希望改进系统,使其能够预测和比较聚集速度,而不仅仅是聚集的可能性。这可以帮助预测哪些蛋白质变体快速形成团块,哪些形成较慢,这在神经退行性疾病中是一个至关重要的因素,因为淀粉样形成的时机与其发生本身一样重要。

“创建一个20个氨基酸长的蛋白质片段有1024 quintillion种方式。到目前为止,我们仅用100,000个片段训练了一种人工智能。我们希望通过制作更多、更大的片段来改善。这只是第一步,但我们的工作表明解码蛋白质聚集的语言是可能的。这对我们理解人类疾病至关重要,同时也为合成生物学的努力提供指导,”博洛涅西博士总结道。

“这个项目是如何将大规模数据生成与人工智能结合起来加速研究的一个很好的例子。这也是一种非常具有成本效益的数据生成方法,”ICREA研究教授、本·莱赫纳说,作为研究的共同通讯作者,也是基因组调控中心(CRG)及威康桑格研究所的小组领导者。

“利用DNA合成和测序,我们可以在一个管子中进行数十万次实验,生成训练人工智能模型所需的数据。这是一种我们应用于生物学中许多困难问题的方法。目标是使生物学可预测和可编程,”他补充道。

该研究是ICREA研究教授本·莱赫纳的实验室与加泰罗尼亚生物工程研究所(IBEC)博洛涅西博士的实验室的联合合作。冷春港实验室(CSHL)和威康桑格研究所的研究人员也参与了这项研究。该研究由“拉卡伊沙”研究基金会、欧洲研究委员会和西班牙科学与创新部资助。