拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
健康研究人员揭示人工智能在预测学术成果方面超越人类专家

研究人员揭示人工智能在预测学术成果方面超越人类专家

大型语言模型(LLMs)——一种专门从事文本分析的人工智能形式——根据伦敦大学学院(UCL)研究人员的一项研究,已经显示出比人类专家更准确地预测拟议神经科学研究结果的能力。研究结果揭示,经过广泛文本数据集训练的LLMs能够从科学文献中提取模式,使其能够超越人类能力预测科学结果。

由UCL研究人员领导的一项新研究揭示,分析文本的人工智能类型大型语言模型可以比人类专家更准确地预测拟议神经科学研究的结果。

该研究发表在自然人类行为上,显示经过大型文本语料库训练的LLMs能够识别科学论文中的模式,使其能够以显著的精度预测科学结果。

研究人员强调,这表明LLMs作为促进研究的有价值资源的显著潜力,超越了单纯的知识检索。

来自UCL心理与语言科学的首席作者Ken Luo博士表示:“随着生成性人工智能(如ChatGPT)的兴起,很多研究集中在LLMs的问答能力,突显它们在总结大量学习信息方面的卓越才能。然而,我们的目标不仅仅是关注它们检索过去数据的能力,而是看看LLMs是否能够综合知识来预测未来结果。”

“推动科学进步通常依赖于通过试验和错误进行实验,这可能是耗时且成本高昂的。即使是最熟练的研究人员也可能错过文献中发现的重要见解。我们的研究旨在确定LLMs是否能够从大量科学文本中发现模式并预测实验结果。”

该国际团队通过创建一个名为BrainBench的工具来评估LLMs在神经科学领域的预测能力。

BrainBench包含多个神经科学研究摘要对,其中一个摘要代表真实研究,描述研究背景、方法和实际结果,而第二个摘要则包含相同的背景和方法,但呈现由神经科学专家构建的可信但不正确的结果。

研究团队测试了15种不同的通用大型语言模型,针对171名经过筛选确认其专业知识的神经科学专家,以确定人工智能或人类能否准确识别具有真实研究结果的摘要。

所有LLMs都超越了人类专家,平均准确率为81%,而专家为63%。即使当研究人员专注于特定神经科学领域中知识最渊博的个体(基于自我评估的专业知识)时,专家的准确率仍然较低,为66%。研究人员还发现,当LLMs对其答案展示出更高信心时,它们更可能是正确的。这一发现暗示了一个前景光明的未来,人类专家可能会与调校良好的人工智能模型协作。

此外,研究人员通过专门针对神经科学文献训练现有的LLM(Mistral的一个变体)来进行了优化。这个新开发的模型名为BrainGPT,在预测研究结果方面表现出色,准确率达到86%,相比之下,通用的Mistral的准确率为83%。

来自UCL心理与语言科学的高级作者Bradley Love教授表示:“考虑到我们的研究发现,我们认为不会太久,科学家们将利用AI工具设计最佳实验以回答他们的问题。尽管我们的重点是神经科学,但我们的方法是广泛适用于所有科学领域。”

“真正显著的是LLMs在神经科学文献上的预测能力。这一成功表明,科学的许多方面并没有想象中那么新颖,而是与已有研究中发现的模式相一致。这引发了一个问题,即科学家是否足够创新和探索。”

Luo博士补充道:“基于我们的发现,我们正在开发AI工具来帮助研究人员。我们设想一个未来,科学家可以提出他们的实验设计和预期结果,AI提供关于各种结果可能性的预测。这将促进更快的迭代,并增强实验设计中的决策能力。”

该研究得到了经济和社会研究委员会(ESRC)、微软及皇家学会沃尔夫森奖学金的支持,并包括来自UCL、剑桥大学、牛津大学、德国马克斯·普朗克神经行为生物学研究所、土耳其比尔肯特大学以及英国、美国、瑞士、俄罗斯、德国、比利时、丹麦、加拿大、西班牙和澳大利亚的各种机构的研究人员。

注意

* 在呈现两个摘要时,LLM通过分配一个困惑度分数来评估每个摘要的可能性,该分数反映基于其学习的知识和上下文(背景和方法)每个摘要的惊讶程度。研究人员通过测量真实和虚假摘要之间感知惊讶的差异来评估LLMs的信心——差异越大,信心越高,这与LLM识别正确摘要的可能性呈正相关。