一部全面的已知功能百科全书,涵盖所有编码蛋白质的人类基因,刚刚完成并发布。研究人员利用大规模的进化模型,将人类基因的数据与其他生物体收集的遗传数据整合。这最终形成了一个可搜索的公共资源,列出了超过20,000个基因的已知功能,使用的是最准确和完整的证据。
来自基因本体联合会的新资源,一部全面的已知功能百科全书,涵盖所有编码蛋白质的人类基因,刚刚完成并在一个新网站上发布。研究人员来自南加州大学凯克医学院、瑞士生物信息学研究所及其他机构,首次利用大规模的进化模型将人类基因的数据与从其他生物体收集的遗传数据整合。这最终形成了一个可搜索的公共资源,列出了超过20,000个基因的已知功能,使用的是最准确和完整的证据。描述该资源的论文刚刚发表在《自然》期刊上。
基因本体,作为一项由国立卫生研究院资助的知识库,已经不断扩展和改进超过25年,已成为生物医学研究过程中的一个主要支柱。每年,它被用于超过30,000份出版物,以协助数据分析和解读。
进行“组学”实验的生物医学研究人员——DNA、RNA、蛋白质和其他生物分子的广泛研究——生成的数据可以识别出数百个感兴趣的基因。例如,研究人员可能会了解到在癌细胞中与健康细胞相比哪些基因是“开启”或“关闭”的。回顾数千篇关于每个基因已知功能的发表论文是不切实际的,因此许多科学家转而使用基因本体。
“我们的知识库使科学家能够从仅仅一份基因列表转向理解它们的生物学功能,包括哪些可能对治疗有用,”基因本体联合会的首席研究员、南加州大学凯克医学院生物信息学部主任以及公共卫生科学与人口科学教授保罗·D·托马斯博士说。
现在,这一最新里程碑为知识库提供了一个新的资源,通过使用进化模型使该工具更加强大。这种方法允许研究人员将从人类基因收集的实验数据与从模式生物(如小鼠和斑马鱼)获得的相关基因数据结合起来。它提供了关于人类基因功能的更完整的图景,包括填补科学知识的空白,尤其是在没有来自人类研究的直接证据的情况下。
“我们之前积累了一个庞大的知识库,已成为人类基因功能的权威参考,”托马斯说道,他也是新出版物的首席作者。“现在,通过增加关于每个功能在进化中何时出现的信息,我们提供了一个更完整、更准确和简明的人类基因所编码功能的描述。”
进化视角
这个新资源是由来自世界各地的超过150名生物学家编制的,包括南加州大学凯克医学院的研究人员。自1998年以来,该团队已经仔细审查了超过175,000篇关于基因功能的科学出版物,寻找在研究良好的生物体中基因功能的数据,以及人类基因组中每个基因的数据——主要是控制主要生物过程的超过20,000个编码蛋白质的基因。
在审阅文献后,他们根据每个基因执行的生物功能对其进行了分类,不论是独立执行还是与其他基因组合。他们从他们开发的一个包含超过40,000个功能的目录中选择,这些功能涵盖了细胞分裂、细胞信号传导、免疫反应、分子转运等多个领域。理解基因组的功能组所执行的确切功能可以帮助研究人员理解癌症及其他疾病中的问题,并设计针对性治疗。
新的基因功能描述资源被称为“PAN-GO功能组”,科学界将在相同的方式使用它——在组学数据分析等其他应用中——但这将产生更准确的结果,托马斯说。这是因为最近的工作利用大规模的进化模型(跟踪成千上万基因及相关蛋白质的进化历史)整合了知识库中的所有信息,创造了一个更完整和准确的基因功能图景。
在许多情况下,人类基因的实验数据不可用,但科学家们研究了小鼠、大鼠、斑马鱼、果蝇、酵母或E. coli中的相关基因。通过理解特定功能(如能量处理或细胞信号传导)何时和如何进化,研究人员可以利用从其他生物体获得的数据来理解人类的基因功能。
“这帮助我们推断人类基因的功能特征,即使对人类基因本身的实验没有直接证据,”托马斯说。
进一步改善知识库
展望未来,基因本体联合会请求研究人员在分析中使用PAN-GO功能组。该信息以机器可读的格式结构化,允许科学家利用计算工具,如人工智能,快速搜索和使用数据。
该联合会还发出了行动号召:研究人员现在可以通过项目网站提交更新特定基因的知识库建议。众包基因功能知识并以结构化方式对其分类,确保了共享资源随着时间的推移不断改进,并且其见解易于应用。
虽然这是关于基因功能的最全面资源,但PAN-GO功能组尚未完成。它包含82%的编码蛋白质基因的数据,但另外18%(大约3,600个基因)没有实验数据,其生物功能仍然未知。
“我们现在清楚知道我们在哪些方面缺少信息,这也是未来在该领域的研究可能要关注的地方,”托马斯说。
除了托马斯,研究的其他作者包括南加州大学凯克医学院公共卫生科学与人口科学系的胡艾宇、安努什雅·穆鲁卡努詹、达斯汀·埃伯特和特雷梅恩·穆沙亚哈马;瑞士日内瓦瑞士生物信息学研究所Swiss-Prot小组的马克·费尔曼和帕斯卡尔·高达;以及加州伯克利的劳伦斯伯克利国家实验室的苏珊娜·E·刘易斯;以及来自世界约50个机构的基因本体联合会的150多名合作者。
这项工作主要获得了国立卫生研究院的支持 [U24HG002273, U24HG012212]。