研究人员成功地使用了一种算法来识别增加疾病风险的可能突变,这些突变存在于我们 DNA 的非编码区域,而这些区域构成了人类基因组的绝大多数。这些发现可以作为检测多种常见疾病相关变异的基础。
来自费城儿童医院 (CHOP) 和宾夕法尼亚大学佩雷尔曼医学院 (Penn Medicine) 的研究人员成功地使用了一种算法来识别增加疾病风险的可能突变,这些突变存在于我们 DNA 的非编码区域,而这些区域构成了人类基因组的绝大多数。这些发现可以作为检测多种常见疾病相关变异的基础。这些发现今天由《美国人类遗传学杂志》在线发布。
虽然人类基因组的某些部分编码蛋白质以执行多种基本生物功能,但超过98%的基因组并不编码蛋白质。然而,疾病相关变异也可以在这些基因组的非编码区域中找到,这些区域通常控制何时产生或“表达”蛋白质。由于这种“调控代码”尚不完全清晰,因此这些非编码变异的研究相对困难,但之前的全基因组关联研究 (GWAS) 在理解其临床相关性方面取得了重大进展。
其中一个挑战是,虽然 GWAS 可以确定广泛区域是与疾病相关的,但在众多变体中确定哪个是造成疾病的真正原因仍然是一个挑战。许多这些非编码区域的变异集中在转录因子结合基序附近,这些区域是基因组中特定蛋白质(称为转录因子)识别和结合的地方,从而调控基因表达。虽然这些蛋白质在基因组中“开放”的区域结合,但它们暂时“关闭”了它们结合的 DNA 的直接区域,在实验结果中留下了一种“脚印”,可以用来准确确定它们结合的位置。
“这种情况可以与警察站立一个排队的场景相提并论,”该研究的高级作者斯特鲁安·F·A·格兰特博士说,他是 CHOP 空间与功能基因组学中心的主任和丹尼尔·B·伯克糖尿病研究教席的教授。“你在观察相似的嫌疑人,所以确实很难知道谁是真正的罪犯。通过我们在这项研究中使用的方法,我们能够通过识别这种所谓的脚印来定位致病变异。”
在这项研究中,研究人员利用 ATAC-seq,一种识别基因组“开放”区域的实验基因组测序方法,以及 PRINT,这是一种基于深度学习的方法,用于检测这些类型的 DNA-蛋白质相互作用的脚印。利用170个人体肝脏样本的数据,研究人员观察到了809个“脚印数量性状基因座”,即与这些脚印相关的特定人类基因组部分,表明 DNA-蛋白质相互作用应该发生的位置。通过这种方法,研究人员可以确定转录因子在不同变异下与这些位点结合的强度。
凭借这些有用的基础信息,研究的作者希望将这些技术应用于其他器官和组织样本,并开始识别这些变异中哪些可能是推动各种常见疾病的因素。
“这种方法帮助解决了我们过去在确定哪些非编码变异可能驱动疾病时所遇到的一些基本问题,”第一作者马克斯·杜德克说,他是宾夕法尼亚医学中心遗传学系格兰特和阿尔马斯实验室的博士生。“通过更大的样本量,我们相信精确定位这些因果变异最终可以为设计新的常见疾病治疗提供信息。”
这项研究得到了国家科学基金会研究生研究奖学金计划、国立卫生研究院 R01 HL133218、U10 AA008401、UM1 DK126194、U24 DK138512、UM1 DK126194 和 R01 HD056465 以及丹尼尔·B·伯克糖尿病研究教席的支持。