一种新的多模态工具结合了大型语言模型和强大的图基AI模型,以有效地基于用户的自然语言查询找到具有所需属性的新合成分子。
发现具有制造新药和材料所需属性的分子的过程繁琐且昂贵,消耗大量计算资源,并需要数月的人力来缩小潜在候选者的庞大空间。
像ChatGPT这样的大型语言模型(LLM)可以简化这一过程,但让LLM了解和推理形成分子的原子和键,就像它处理形成句子的单词一样,已经成为科学上的难题。
麻省理工学院和麻省理工-IBM沃森人工智能实验室的研究人员创建了一种有前景的方法,通过图基模型增强LLM,这些模型专门用于生成和预测分子结构。
他们的方法采用基础LLM来解释指定所需分子属性的自然语言查询。它自动在基础LLM和图基AI模块之间切换,以设计分子、解释理由,并生成合成它的逐步计划。它交错文本、图形和合成步骤生成,将单词、图形和反应结合成LLM可以消耗的通用词汇。
与现有的基于LLM的方法相比,这种多模态技术生成的分子更符合用户的规格,并且更可能具有有效的合成计划,提高了成功率,从5%提高到35%。
它还优于规模超过其10倍的LLM,这些LLM仅使用基于文本的表示来设计分子和合成路线,这表明多模态是新系统成功的关键。
麻省理工学院的研究生、该技术论文的合著者Michael Sun说道:“这有望成为一个从头到尾的解决方案,我们会自动化设计和制造分子的整个过程。如果LLM能在几秒钟内给你答案,这将为制药公司节省大量时间。”
Sun的合著者包括主要作者、圣母大学的研究生Gang Liu;麻省理工学院电气工程和计算机科学教授、计算设计与制造组负责人Wojciech Matusik;圣母大学的副教授Meng Jiang;以及高级研究科学家和麻省理工-IBM沃森人工智能实验室经理Jie Chen。该研究将提交到国际学习表示会议上。
兼顾两全
大型语言模型并不是为了理解化学的细微差别而构建的,这是它们在逆分子设计(识别某些功能或属性的分子结构的过程)中遇到困难的原因之一。
LLM将文本转换为称为标记的表示,使用这些标记顺序预测句子中的下一个单词。但分子是“图结构”,由没有特定顺序的原子和键组成,使其难以编码为序列文本。
另一方面,强大的图基AI模型将原子和分子键表示为图中的相互连接的节点和边。虽然这些模型在逆分子设计中很受欢迎,但它们需要复杂的输入,无法理解自然语言,并产生可能难以解释的结果。
麻省理工学院的研究人员将LLM与图基AI模型结合成一个统一的框架,从而兼顾两全。
Llamole,代表“用于分子发现的大型语言模型”,使用基础LLM作为看门人来理解用户的查询——一项关于具有特定属性的分子的自然语言请求。
例如,也许用户寻求一种能够穿透血脑屏障并抑制HIV的分子,要求其分子量为209,且具有某些键特性。
当LLM预测文本响应查询时,它在图模块之间切换。
一个模块使用图扩散模型生成受输入要求条件的分子结构。第二个模块使用图神经网络将生成的分子结构编码回标记,以供LLM使用。最后一个图模块是图反应预测器,输入为中间分子结构并预测反应步骤,寻找从基本构件合成分子的确切步骤集。
研究人员创建了一种新的触发标记,告诉LLM何时激活每个模块。当LLM预测到“设计”触发标记时,它切换到草图分子结构的模块;而当它预测到“逆合成”触发标记时,它切换到预测下一个反应步骤的逆合成规划模块。
Sun说:“这一切的美妙之处在于,LLM在激活特定模块之前生成的一切都会输入到该模块本身。该模块正在学习以与之前的一致的方式运作。”
以同样的方式,每个模块的输出都会被编码并反馈到LLM的生成过程,使其理解每个模块的工作,并继续基于这些数据预测标记。
更好、更简单的分子结构
最终,Llamole输出分子结构的图像、分子的文本描述以及逐步的合成计划,提供如何制造它的详细信息,甚至到单个化学反应。
在设计与用户规格匹配的分子的实验中,Llamole的表现优于10个标准LLM、4个微调LLM和一种最先进的特定领域方法。同时,它通过生成更高质量的分子将逆合成规划成功率从5%提高到35%,这意味着它们具有更简单的结构和更低成本的构建模块。
Liu表示:“单靠LLM很难弄清楚如何合成分子,因为这需要进行大量的多步骤规划。我们的方法能够生成更好的分子结构,这些结构也更容易合成。”
为了训练和评估Llamole,研究人员从零构建了两个数据集,因为现有的分子结构数据集没有足够的细节。他们用AI生成的自然语言描述和定制的描述模板增加了数十万个已获专利的分子。
他们构建的用于微调LLM的数据集包括与10种分子属性相关的模板,因此Llamole的一个限制是它被训练为仅考虑这10种数值属性来设计分子。
在未来的工作中,研究人员希望使Llamole更通用,以便它可以纳入任何分子属性。此外,他们计划改进图模块以提高Llamole的逆合成成功率。
从长远来看,他们希望利用这种方法超越分子,创建能够处理其他类型图基数据的多模态LLM,例如电网中的互联传感器或金融市场中的交易。
Chen表示:“Llamole展示了使用大型语言模型作为超越文本描述的复杂数据接口的可行性,我们预期它们将成为与其他AI算法互动的基础,以解决任何图问题。”
该研究部分得到了麻省理工-IBM沃森人工智能实验室、国家科学基金会和海军研究办公室的资助。