研究已发现通过某些统计技术识别使用 ChatGPT 在普通化学选择题考试中作弊的方法。随着生成性人工智能越来越多地被纳入教育环境,关于其对作弊影响的大多数担忧主要集中在论文、开放式考试问题和类似的叙述任务上。然而,像 ChatGPT 这样的人工智能工具在选择题考试中的欺骗使用并没有受到太多关注。
来自佛罗里达州立大学的一位化学家参与了一项重塑我们对这种作弊形式理解的研究合作。他们的研究结果展示了如何通过特定的统计方法检测在普通化学选择题考试中使用 ChatGPT 作弊。该研究发表于《化学教育杂志》。
“虽然许多教育工作者和研究人员专注于识别如 Turnitin AI 检测中的论文和开放式回答中的人工智能辅助作弊,但据我们所知,这是首次提出检测选择题考试中作弊的方法,”佛罗里达州立大学化学与生物化学系副教授肯·汉森(Ken Hanson)表示。“通过分析学生与使用 ChatGPT 的学生在选择题化学考试中的表现差异,我们识别出了几乎没有假阳性情况的 ChatGPT 使用实例。”
这篇出版物是汉森与机器学习工程师本·索伦森(Ben Sorenson)之间七年合作的最新结果。
汉森和索伦森从三年级开始就是朋友,二人都在明尼苏达州的圣克劳德州立大学获得了本科学位,并将他们的友谊延续到了职业生涯中。作为佛罗里达州立大学的教员,汉森对如何测量他的学生从讲座、课程和实验室工作中吸收知识产生了兴趣。
“我和本讨论了这个问题,他在统计学、计算机科学和数据分析方面非常出色,”汉森说,他与佛罗里达州立大学致力于提升基础 STEM 课程(如普通化学和大学代数)学生成功的教员团队相关联。“他建议我们可以利用统计工具来评估我的考试有效性,所以在 2017 年我们开始分析。”
Rasch 模型的本质是,学生答对任何测试问题的可能性依赖于两个因素:问题的难度和学生的能力。在这里,“能力”指的是学生所具备的知识和回答问题所需的组成部分。研究人员表示,这种评估考试结果的方法提供了有价值的洞察。
“即使肯和我在不同的地点工作,我们的合作也非常顺畅高效,”索伦森说道。“我们的工作为教育者怀疑可能存在作弊提供了足够的证据。令我们惊讶的是,识别与人工智能相关的模式是多么简单。”
汉森于 2010 年在南加州大学获得化学博士学位,并在北卡罗来纳大学教堂山分校完成博士后研究,然后于 2013 年加入佛罗里达州立大学化学系。他的研究组,即汉森研究小组,专注于分子光化学和光物理学,涉及研究光(光子)及其与分子的相互作用。作为美国化学学会成员,汉森已撰写超过 100 篇出版物并持有十多项专利。
研究人员收集了佛罗里达州立大学学生在五个学期的考试反应,将近 1000 个问题输入 ChatGPT,并分析了结果。仅凭平均分和基本统计数据无法指示 ChatGPT 类似行为,因为某些问题在 ChatGPT 中总是被正确或错误地回答。因此,它的整体分数看起来与学生的分数无异。
“ChatGPT 的关键在于它可以生成内容,但这并不意味着内容是正确的,”汉森指出。“它只是一个答案生成器。它试图呈现出知识渊博的样子,这可能会欺骗那些对材料不熟悉的人。”
通过应用拟合统计,研究人员调整了能力参数并重新评估结果,发现 ChatGPT 的回答模式与学生明显不同。
在考试中,高成就的学生通常能够准确回答困难和容易的问题,而普通学生通常在某些困难问题和大多数简单问题上回答正确。低成就的学生通常只能回答简单问题正确。然而,在多次尝试考试中,ChatGPT 有时会将所有易错问题回答错误而将所有难题回答正确。汉森和索伦森利用这些行为差异几乎以 100% 的准确率检测 ChatGPT 的使用。
这对父子的使用 Rasch 建模和拟合统计的方法适用于任何生成 AI 聊天机器人,因为这些机器人将表现出自己独特的模式,以帮助教育者识别在完成选择题考试中使用这些聊天机器人的情况。