软件开发中的人工智能威胁揭示

研究人员完成了迄今为止关于使用 AI 模型开发软件风险的最全面研究之一。在一篇论文中，他们展示了特定类型的错误如何对使用 AI 来编写代码的程序员构成严重威胁。

UTSA 研究人员最近完成了迄今为止关于使用 AI 模型开发软件风险的最全面研究之一。在一篇新论文中，他们展示了特定类型的错误如何对使用 AI 来帮助编写代码的程序员构成严重威胁。

乔·斯普拉克伦（Joe Spracklen），一名 UTSA 计算机科学博士生，领导了关于大型语言模型（LLM）如何频繁生成不安全代码的研究。他的团队的论文已被美国计算机安全与隐私会议 USENIX Security Symposium 2025 接受发表，这是一个著名的网络安全和隐私会议。

这个多机构合作团队还包括三名来自 UTSA 的研究人员：博士生 A.H.M. Nazmus Sakib、博士后研究员 Raveen Wijewickrama 和 SPriTELab（计算研究实验室的安全、隐私、信任和伦理）主任穆尔图扎·贾德利瓦拉（Dr. Murtuza Jadliwala）副教授。此外，合作人员包括来自俄克拉荷马大学的阿宁迪亚·迈塔（Anindya Maita，前 UTSA 博士后研究员）和弗吉尼亚理工大学的比马尔·维斯瓦纳斯（Bimal Viswanath）。

大型语言模型中的幻觉发生在模型生成的内容在事实上一无是处、无意义或与输入任务完全无关时。迄今为止，大多数当前研究主要集中在经典自然语言生成和预测任务上的幻觉，例如机器翻译、摘要和对话 AI。

研究团队关注包幻觉现象，即当 LLM 生成或推荐使用实际上并不存在的第三方软件库时发生的情况。

包幻觉成为一个引人入胜的研究领域，令人着迷的是如此简单的东西——一个日常命令——却能引发严重的安全风险。

斯普拉克伦说：“这不需要复杂的情况或某些晦涩的事情发生。只需在那些编程语言中输入一个大多数人每天都会输入的命令，仅此而已。这是非常直接和简单的。”

他补充道：“它也是普遍存在的。你能够用基本的 Python 编程语言做很少的事情。如果你自己编写代码，会花费很长时间，所以依赖开源软件来扩展编程语言以完成特定任务是普遍的。”

LLM 在开发者中越来越受欢迎，他们使用这些 AI 模型来辅助组装程序。根据研究，高达 97% 的软件开发者将生成性 AI 纳入了他们的工作流程，目前撰写的代码中有 30% 是 AI 生成的。此外，许多流行的编程语言，例如 Python 的 PyPI 和 JavaScript 的 npm，与集中式包库的使用密切相关。由于这些库通常是开源的，恶意行为者可以上传伪装成合法软件包的恶意代码。

多年来，攻击者采用各种手段让用户安装他们的恶意软件。包幻觉是最新的策略。

“假设我请 ChatGPT 为我编一些代码，它真的写出来了。那么假设在生成的代码中包含了一个指向某个软件包的链接，而我信任它并运行了该代码，但这个软件包并不存在，它是一个幻觉软件包。一个精明的对手/黑客可以看到这种行为（LLM），并意识到 LLM 正在告诉人们使用这个不存在的包，这个幻觉包。然后，对手只需轻易地创建一个与幻觉包（由 LLM 推荐）同名的新包，并在其中注入一些恶意代码。这样，下次 LLM 在生成的代码中推荐同样的软件包，而一位毫无防备的用户执行了该代码，这个恶意软件包就会被下载并在用户的计算机上执行。”贾德利瓦拉（Jadliwala）解释道。

UTSA 研究人员评估了不同编程语言、设置和参数下包幻觉的发生情况，探索了错误包推荐的可能性并识别根本原因。

在 UTSA 研究人员进行的 30 次不同测试中，他们使用 LLM 模型生成的 223 万个 Python 和 JavaScript 代码示例中，440,445 个参考了幻觉包。在研究人员测试的 LLM 中，“与开源模型相比，GPT 系列模型被发现产生幻觉包的可能性低四倍，幻觉率为 5.2% 对比 21.7%，”研究指出。研究人员发现，Python 代码比 JavaScript 更不容易受到幻觉影响。

这些攻击通常涉及命名一个恶意包以模仿合法软件包，这种策略被称为包混淆攻击。在包幻觉攻击中，毫无防备的 LLM 用户将在他们生成的代码中获得推荐包，并会信任 LLM，从而下载对手创建的恶意包，导致安全漏洞。

这种脆弱性的阴险之处在于它利用了对 LLM 日益增长的信任。随着它们在编码任务中变得越来越高效，用户可能会越来越盲目地信任它们的输出，并可能成为这种攻击的受害者。

斯普拉克伦解释道：“如果你经常编码，很容易看出这种情况是如何发生的。我们和很多人谈过，几乎每个人都说他们在编码时注意到了包幻觉，但他们从未考虑过它是如何被恶意使用的。你对包发布者施加了大量隐性信任，认为他们共享的代码是合法的而不是恶意的。但每次你下载一个包时，都是在下载潜在的恶意代码，并给予它对你计算机的完全访问权限。”

虽然交叉引用生成的包与主列表可能有助于缓解幻觉，但 UTSA 研究人员表示，最佳解决方案是在 LLM 自身开发期间解决其基础问题。该团队已将其研究结果披露给包括 OpenAI、Meta、DeepSeek 和 Mistral AI 在内的模型提供者。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

软件开发中的人工智能威胁揭示

光子量子芯片让人工智能变得更智能和更环保

过时手机如何为智能城市提供动力并拯救海洋

光子在虚空中碰撞：量子模拟从无中创造光线