根据最近的一项研究,蛋白质的三维排列可能揭示生命之树内的古老进化联系。这项研究代表了一个重要的进展,因为这是科学家首次将蛋白质形状数据与基因组序列信息相结合,以提高进化树的准确性。理解这些进化树对于科学界研究生命的历史、监测病原体的传播以及创新医疗治疗至关重要。值得注意的是,这种方法甚至适用于尚未经过实验确认的预测蛋白质结构。这项研究打开了利用像AlphaFold 2这样的技术生成的大量结构数据的门户,这可能为地球上生命的古老历史提供新的视角。
发表在《自然通讯》上的一项研究表明,蛋白质的三维形状可以揭示生命之树中的深刻进化联系。
这项开创性的研究将蛋白质形状与基因组序列的数据结合起来,从而提升进化树的可靠性——这是科学家解读生命历史、跟踪疾病传播以及创造新疗法的重要工具。
重要的是,这种新方法还可以纳入尚未经过实验测试的预测蛋白质结构。这对利用由AlphaFold 2等工具生成的大量结构数据具有重要意义,为我们提供更深入的见解,了解我们星球的古生物遗产。
目前,研究人员已经有大约210,000个经过实验验证的蛋白质结构,以及约2.5亿个已知的蛋白质序列。诸如EarthBioGenome项目这样的计划预计将生成数十亿个额外的蛋白质序列,为前所未有的研究机会铺平道路。
多年来,生物学家通过追踪物种和基因从共同祖先的分化来重建进化历史。通常,这些系统发育树是通过比较DNA或蛋白质序列来创建的,以评估它们的相似性和差异,从而推断关系。
然而,研究人员面临着一个称为饱和的重大挑战。在长时间内,基因组序列会发生如此显著的变化,以至于与其祖先形式几乎没有相似之处,使得检测共同祖先的迹象变得困难。
“饱和是系统发育学中的一个主要挑战,是重建古老关系的主要障碍,”克里斯托夫·诺特里达博士(Centre for Genomic Regulation,CRG)的研究员及研究的主要作者解释道。“这类似于古老手稿的退化——最终,字母褪色,原始的信息丧失。”
为了解决这个问题,研究团队专注于分析蛋白质的物理形态。蛋白质的折叠模式形成复杂的形状,决定了其细胞功能。这些形状相较于蛋白质序列,在进化变化中更为稳定,使其更具韧性,更能保留祖先特征。
蛋白质的三维结构由其氨基酸序列决定。尽管这些序列中可能发生突变,但整体形状通常保持一致,以保持功能性。研究人员提出,通过测量蛋白质内氨基酸对之间的距离,即分子内距离(IMD),可以追踪其结构随时间的进化。
该研究汇编了来自不同物种的已知结构的蛋白质的广泛数据集,并计算了每个蛋白质的IMD,然后用于构建系统发育树。
结果表明,基于结构数据构建的树与基于遗传序列创建的树密切对应,但具备一个重要的优势:结构树对饱和的脆弱性较小,这意味着即使遗传序列发生显著分化,它们仍能保留可靠的信号。
由于序列和结构都提供了有价值的信息,团队创建了一种结合的方法,不仅提高了树枝的可信度,还帮助区分有效和无效的关系。
“这就像两位目击者从不同角度叙述同一事件,”博士Leila Mansouri(该研究的共同作者)表示。“每个人提供独特的细节,但在一起叙述了一个更完整和准确的故事。”
这种综合方法可能在研究中产生重大影响的一个实际例子是在理解人类基因组中激酶之间的关系。激酶是参与多种细胞过程的重要蛋白质。
“包括人类在内的大多数哺乳动物的基因组中约有500种调节几乎所有生物功能的蛋白激酶,”诺特里达博士指出。“这些激酶是癌症治疗的主要目标,比如人类的药物伊马替尼或狗的托塞拉尼。”
人类激酶是通过在过去十亿年中发生的重复而产生的。“在人类基因组中,遗传上距离最遥远的激酶可以追溯到约十亿年前,”诺特里达博士补充道。“它们是在我们最古老的前辈的共同祖先处重复的。”
这个广泛的时间框架在准确地构建描述这些激酶之间关系的基因树时产生了挑战。“然而,尽管存在缺陷,激酶进化树仍广泛用于理解其与不同药物的相互作用。增强这棵树,或优化其他重要蛋白质家族的树,将对人类健康产生重要进展。”诺特里达博士总结道。
这项研究的潜在影响远远超出了癌症。应用这种方法创建更准确的进化树也可能加深我们对疾病进化的理解,促进疫苗和治疗的发展。此外,这可能为复杂性状的起源提供见解,帮助发现用于生物技术应用的新酶,甚至帮助追踪物种传播与气候变化的关系。