一项实验旨在评估六种生成性大型语言模型在网上生物医学和健康信息学入门课程中对学生的表现。结果表明,这些人工智能模型的表现超过了三分之四的学生。
威廉·赫施(William Hersh),Oregon Health & Science University的医学与临床信息学长期教育者,对于人工智能在教育中的日益作用感到好奇。他质疑人工智能在自己的课堂上会如何表现。
因此,他决定进行一项实验。
他在其备受推崇的生物医学和健康信息学入门课程的在线版本中评估了六种生成性大型语言人工智能模型,如ChatGPT,以查看它们与实际学生的表现相比如何。发表在《npj Digital Medicine》期刊上的研究结果表明,这些人工智能模型的表现优于约三分之四的人类参与者。
“这引发了对潜在作弊的担忧,但还有一个更重要的问题,”赫 Hirsch 表达道。“我们如何能够确信我们的学生真正学习并掌握了未来职业所需的信息和技能?”
作为OHSU医学院的一名医学生物信息学和临床流行病学专业教授,赫 Hirsch 特别敏感于新兴技术。他指出:“技术整合到教育中的过程并不新鲜,”反思自己在1970年代的高中经历,那时从滑规转换到计算器。
然而,他强调,生成性人工智能的出现意味着一个巨大的飞跃。
“显然,每个人都应该在各自领域拥有基本的知识,”赫 Hirsch 表示。“我们应该期望个人拥有什么基础知识,以便进行批判性思考?”
大型语言模型
赫 Hirsch 和共同作者Kate Fultz Hollis(OHSU的信息学家)分析了2023年生物医学和健康信息学入门课程中139名学生的知识评估得分。他们向六个生成性人工智能模型提交了与课程相关的评估材料。根据模型的不同,人工智能在多项选择题和小组测验以及期末考试的简答题中取得了从第50百分位到第75百分位的得分。
“这项研究的发现为未来各学术领域的学生评估提出了重要问题,”作者们表示。
这项研究标志着在生物医学领域内首次对大型语言模型与学生在整个学术课程中进行彻底比较。赫 Hirsch 和 Fultz Hollis 指出,像这样的以知识为基础的科目可能特别适合生成性人工智能,而不像更多参与型课程那样专注于复杂技能和能力的培养。
赫 Hirsch 回忆起他的医学院时光。
“在我作为医学学生期间,一位监督者建议我将所有知识记住,”他回想道。“即便在1980年代,那也是一个重大的挑战。医学知识的广度早已超出了个人记忆的能力。”
保持人文元素
尽管如此,他认为有效利用技术资源以增强教育与过于依赖之间存在微妙的平衡,这可能对真正的学习产生不利影响。像OHSU这样的学术医疗中心的核心目标是培养能够熟练进行患者护理并在实际场景中有效利用临床数据和信息的医疗专业人员。
在这方面,他强调,医学始终需要人文关怀。
“医疗专业人员经常处理简单的任务,但也有复杂的情况需要做出关键判断,”他解释道。“在这些情况下,拥有更广阔的视角是有利的,即使没有记住每一个细节。”
随着秋季学期的临近,赫 Hirsch 并不特别担心作弊。
“我每年都会更新课程内容,”他指出。“在任何科学领域,进展是不断发生的,而生成性人工智能可能并不总是跟上所有的发展。这意味着我们需要创建更新或更复杂的评估,不能从ChatGPT得到简单的答案。”