模拟科学家：用于AI驱动科学发现的新工具

研究人员开发了一种生成性人工智能工具，该工具模拟科学家以支持和加速科学发现的过程。

名为LLM4SD（大型语言模型4科学发现），这一新的人工智能系统是一个交互式大型语言模型（LLM）工具，可以进行科学研究的基本步骤，即从文献中检索有用信息并从数据分析中发展假设。该工具是免费的且开源。

当被问及时，该系统还能提供见解，以解释其结果，这一功能在许多当前的科学验证工具中并不可用。

LLM4SD在58个独立研究任务中进行了测试，这些任务涉及四个不同的科学领域：生理学、物理化学、生物物理学和量子力学。

该研究的主要共同作者、博士候选人郑怡珍来自莫纳什大学信息技术学院的数据科学与人工智能系。

“就像ChatGPT撰写论文或解决数学问题一样，我们的LLM4SD工具阅读数十年的科学文献并分析实验室数据，以预测分子的行为——回答类似‘这种药物能否穿越大脑的保护屏障？’或‘这种化合物会溶解在水中吗？’的问题，”郑先生说。

“除了超越当前作为‘黑盒’操作的验证工具外，该系统还可以使用简单的规则解释其分析过程、预测和结果，这可以帮助科学家信任并采取其见解。”

LLM4SD工具的表现优于当前用于执行这些任务的最先进科学工具；例如，在预测对材料设计至关重要的量子属性时，其准确性提高了多达48%。

该研究的主要共同作者包括博士候选人Huan Yee Koh，他同时在莫纳什大学数据科学与人工智能系和莫纳什药物科学研究所任职，以及来自格里菲斯大学信息与通信技术学院的博士候选人贾欣·朱。

“与其替代传统的机器学习模型，LLM4SD通过综合知识和生成可解释的解释来增强它们，”朱女士说。

“这种方法确保人工智能驱动的预测保持可靠，并且对不同科学学科的研究人员都是可获取的，”Koh先生补充说。

数据科学家、人工智能专家，也是本研究的共同作者、莫纳什大学信息技术学院的Geoff Webb教授表示，LLM可以准确模拟从文献中综合知识和通过解释数据来发展假设的关键科学发现技能。

“我们已经完全沉浸在生成性人工智能的时代，我们需要开始尽可能利用这一点来推动科学发展，同时确保以伦理的方式进行开发，”Webb教授说。

“这个工具有潜力使药物发现过程变得更简单、更快速、更准确，并成为全球各个领域科学家的超级研究支持。”

研究共同作者潘诗瑞教授是一位数据挖掘和机器学习专家，兼任格里菲斯大学信息与通信科技学院的ARC未来研究员。

“像LLM4SD这样的模型可以快速综合数十年的前期知识，然后识别数据中可能未被广泛报告的新模式，”潘教授说。

“我们将其视为加速研发过程及其他领域的关键进展。”

这项研究是在莫纳什大学信息技术学院、莫纳什药物科学研究所与格里菲斯大学的人工智能和药物发现研究人员之间的合作。

该项目得到了澳大利亚研究委员会（ARC）拨款、澳大利亚国家健康与医学研究委员会（NHMRC）概念拨款及ARC未来研究员计划的支持。