研究人员开发了一种人工智能系统,可以预测具有独特特性的潜在活性成分,创建了一个化学语言模型——类似于ChatGPT,但用于分子。在经过训练后,该AI成功复制了具有双靶点活性的化合物的化学结构,这可能在药物中有效。
波恩大学的科学家们训练了一种AI系统,以预测具有独特特性的潜在活性成分。为此,他们创建了一个化学语言模型,类似于为分子设计的ChatGPT。经过培训,该AI能够准确重建已知具有双靶点活性的化合物的化学结构,这可能导致有效的治疗。这项研究结果已在Cell Reports Physical Science上发表。
今天,任何希望用一首诗来给祖母惊喜的人,在她90岁生日时不需要是一个有才华的诗人:在ChatGPT中输入简单的提示,就可以快速生成一个与她名字押韵的单词列表。它甚至可以在需要时创作一首十四行诗。
波恩大学的研究人员在他们的研究中应用了类似的原理,使用了所谓的化学语言模型。与生成押韵不同,这种AI展示了可能具有特别吸引人特性的化学化合物的结构式:它们能够与两个不同的靶蛋白同时结合。这种双重结合可以同时抑制生物体内的两种酶。
寻找具有双重效应的活性成分
“在药物研究中,具有这种双重作用的化合物由于其多靶向药理学而备受追捧,”计算化学专家、拉玛尔机器学习与人工智能研究所的生命科学AI项目负责人尤尔根·巴约拉斯教授表示,同时也是波恩大学b-it(波恩-亚琛国际信息技术中心)生命科学信息学项目的负责人。“这些化合物能够同时影响多个细胞内过程和信号通路,使其在治疗癌症时可能更有效。”虽然也可以通过同时使用多种药物来实现这种双重效应,但这带来了不必要的相互作用和在体内的分解速度不同的风险,复杂化了它们的协调使用。
识别专门靶向单一蛋白质的分子可能非常具有挑战性。创建具有预定义双重作用的化合物更难。然而,化学语言模型可能在这一领域提供帮助。就像ChatGPT从数十亿页面的文本中学习以形成连贯的句子一样,化学语言模型也从数据中学习,尽管它们依赖的相对信息较少。它们被输入的文本数据如SMILES字符串,代表有机分子及其结构细节,使用字母和符号的序列。“我们使用这样的字符串对训练了我们的化学语言模型,”巴约拉斯实验室的桑贾娜·斯里尼瓦桑解释道。“一个字符串描述了已知针对单一靶蛋白的分子,另一个则代表同时影响该蛋白和一个附加靶点的化合物。”
AI理解化学关系
该模型吸收了超过70,000对这些字符串,从而获得了标准活性化合物和具有双重效应的化合物之间差异的内在理解。“当我们输入一个靶向特定蛋白质的化合物时,它建议其他分子不仅作用于该蛋白质,还作用于第二个蛋白质,”巴约拉斯详细说明。
显示双重作用的训练化合物通常靶向在体内功能相似且表现相似的蛋白质。然而,研究人员也对寻找可以作用于完全不同类型的酶或受体的物质感兴趣。为了为AI准备这个复杂的任务,团队在初步培训后进行了微调阶段。他们利用几个专门的训练对,旨在教算法应该关注建议化合物的哪些特定蛋白质类别。这个过程有点类似于指导ChatGPT创作一首打油诗而不是一首十四行诗。
经过微调,模型确实生成了先前已被证明可以作用于目标蛋白质组合的分子。“这确认了该方法的有效性,”巴约拉斯评论道。然而,他认为这种方法的真正价值不在于立即发现超越现有药物有效性的新化合物。“特别有趣的是,AI常常提出的化学结构对大多数化学家来说并不明显,”他解释道。“在某种程度上,它激发了‘跳出框框’的思维,产生了可以导致新设计假设和研究方向的创新解决方案。”