拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
健康释放混乱:生成性人工智能如何可能颠覆我们所知的互联网

释放混乱:生成性人工智能如何可能颠覆我们所知的互联网

研究人员发现,使用合成数据训练新一代生成人工智能模型可能导致自我破坏的反馈循环。

生成式AI模型,例如OpenAI的GPT-4o和Stability AI的Stable Diffusion,在生成文本、代码、图像和视频方面表现出惊人的能力。然而,挑战在于训练所需的数据量巨大。开发者目前面临可用数据的限制,可能很快会耗尽训练所需的资源。

鉴于数据稀缺,未来AI模型训练中利用合成数据的想法对主要科技公司具有吸引力。这是因为合成数据有几个优势:合成数据比真实数据便宜,几乎无限供应,隐私问题较少(尤其与敏感的医疗信息相关),并且有时可以提高AI的有效性。

尽管存在这些潜在的好处,莱斯大学数字信号处理团队的最新研究表明,依赖合成数据可能会对后续代的生成AI模型产生显著的有害影响。

“当使用这些合成数据进行训练不可避免地被重复时,就会出现问题,导致我们称之为自养或‘自我消耗’循环的反馈循环。”莱斯大学电气与计算机工程C. Sidney Burrus教授理查德·巴拉纽克解释说。“我们的团队对这些反馈循环进行了广泛研究,令人担忧的是,经过几代这种训练后,新模型可能会不可逆转地受损。这种现象通常被称为‘模型崩溃’,特别是在关于大型语言模型(LLMs)的讨论中。然而,我们认为‘模型自养障碍’(MAD)这个术语更像是疯牛病的合适类比。”

疯牛病是一种致命的神经退行性疾病,影响牛只,并且有一种人类对应病症是由食用感染肉类引起的。20世纪末的一次重大疫情突显了疯牛病的传播是由于饲养牛只消耗同类处理残骸的做法,从而得名“自养”,源自希腊文,意为“自我食用”。

“我们在5月于国际学习表征会议(ICLR)上发布的论文中分享了我们对MAD现象的发现。”巴拉纽克指出。

这项标题为“自我消耗的生成模型走向MAD”的研究是关于AI自养的第一篇经过同行评审的研究,特别考察了知名的生成图像模型,例如DALL·E 3、Midjourney和Stable Diffusion。

“我们选择专注于视觉AI模型,以强调自养训练的潜在陷阱,但与大型语言模型存在的腐败问题也相似,其他领域的研究者已经认识到了这一点。”巴拉纽克表示。

通常,互联网作为生成AI模型训练数据集的来源。随着合成数据在网络上的日益普及,自我消耗循环很可能随着每一代新模型的发展而产生。为了探讨这些循环的各种结果,巴拉纽克和他的团队分析了三种自我消耗训练循环,现实地说明了真实数据和合成数据在生成模型训练数据集中是如何结合的:

  • 完全合成循环 — 每一代生成模型完全基于先前几代的输出进行合成数据训练。
  • 合成增强循环 — 每一代模型的训练集由先前几代的合成数据与固定量的真实训练数据混合组成。
  • 新数据循环 — 每一代模型在来自前几代的合成数据和一组新的真实训练数据的混合上进行训练。

渐进的迭代显示,随着时间的推移,并且在没有足够新鲜真实数据的情况下,模型开始产生越来越扭曲的输出,通常缺乏质量、多样性,或者两者都缺乏。简单来说,提供的新鲜数据越多,AI系统就越健康。

比较不同模型代之间的图像数据集展示了AI可能的一个令人担忧的未来。包含人脸的数据集开始出现被称为“生成伪影”的网格状伤痕,或者开始重复同一个个体的特征。同时,代表数字的数据集可能会退化为无法辨认的涂鸦。

“我们的理论和实证研究使我们能够推测,随着生成模型的普及,未来的模型将被困在自我消耗的循环中,”巴拉纽克解释说。“一些结果是显而易见的:没有足够的新鲜真实数据,未来生成模型注定会走向MAD的境地。”

为了增强这些模拟的真实性,研究人员加入了一个采样偏差参数,反映了“挑剔”的现象,用户优先考虑数据质量而不考虑多样性,从而牺牲了图像和文本种类的多样性,以换取看起来或听起来令人愉悦的数据。

挑剔的动机在于它导致在多个模型代中数据质量更为一致,但这伴随着多样性的急剧下降。

巴拉纽克警告说,“一个潜在的末日情景是,如果在许多代中不加以控制,MAD可能会严重退化互联网上可用数据的整体质量和多样性。即使没有达到这种极端情况,AI自养所带来的意外后果在不久的将来似乎也会出现。”

研究团队包括巴拉纽克与莱斯大学博士生西纳·阿勒莫哈默德、霍苏埃·卡斯科·罗德里格斯、艾哈迈德·伊姆蒂亚兹·胡马云、霍斯sein·巴巴埃;莱斯大学博士校友洛伦佐·卢齐;斯坦福大学博士后研究员及莱斯大学博士校友丹尼尔·勒热纳;以及西蒙斯博士后研究员阿里·西亚科希。

这项研究得到了国家科学基金会、海军研究办公室、空军科学研究办公室和能源部的支持。