拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
健康揭示阴影:大型语言模型训练数据集中的透明度危机

揭示阴影:大型语言模型训练数据集中的透明度危机

数据来源探测器旨在协助机器学习专业人员在训练模型时更好地决策所使用的数据,从而可能提高实际应用的准确性。为了开发更复杂的大型语言模型,研究人员收集了来自数千个在线来源的广泛数据集,这些数据集结合了各种信息。

然而,在将这些数据集合并和重新排列为新集合的过程中,其起源和使用限制的关键信息往往会丢失或模糊不清。

这不仅引发法律和伦理问题,还可能对模型性能产生负面影响。例如,如果数据集被错误标记,某人可能在不知情的情况下使用不合适的数据来训练特定应用的机器学习模型。

此外,来源不明的数据可能带有偏见,在模型投入使用时导致不公平的结果。

为了增强数据透明度,由麻省理工学院及其他机构的多学科研究人员组成的小组对来自流行托管平台的1800多个文本数据集进行了全面审核。他们发现,超过70%的这些数据集缺乏关键信息的许可细节,而约50%则包含错误的信息。

基于这些发现,他们创建了一个用户友好的工具,称为数据来源探测器,该工具生成数据集创建者、来源、许可和允许使用的清晰摘要。

“这些工具可以帮助监管者和从业者在部署人工智能时做出明智的决定,从而有助于人工智能的伦理演变,”麻省理工学院教授、该倡议新发表的开放获取论文的共同作者亚历克斯“桑迪”彭特兰表示。

数据来源探测器可以使人工智能开发者构建更有效的模型,因为它允许他们选择与模型预期用途相一致的训练数据集,从而可能提高人工智能在实际应用中的准确性,如贷款评估或客户服务互动。

“了解人工智能模型训练所用的数据对于理解其优缺点至关重要。标记错误和对数据起源的混淆导致显著的透明度问题,”麻省理工学院人类动态小组研究生、哈佛法学院JD候选人和论文共同首席作者罗伯特·马哈里提到。

与马哈里和彭特兰共同参与研究论文的还有共同首席作者莎恩·朗普雷,媒体实验室的研究生,和领导Cohere人工智能研究实验室的萨拉·胡克,以及来自麻省理工学院、加利福尼亚大学尔湾分校、法国外尔大学、科罗拉多大学博尔德分校、欧林学院、卡内基梅隆大学、Contextual AI、ML Commons和Tidelift的合作者。他们的研究今天在《自然机器智能》上发表。

专注于微调

研究人员通常采用一种称为微调的技术,以增强特定任务指定的大型语言模型的能力,例如问答。在微调过程中,他们策划专门的数据集,以提高模型在特定任务上的性能。

麻省理工学院的研究团队专注于这些微调数据集,这些数据集通常由研究人员、学术机构或公司创造,并且是有许可用于特定用途的。

当众包平台将这些数据集合并为更大的集合,以供从业者进行微调时,原始许可信息往往被忽视。

“这些许可是重要的,应该具备法律强制力,”马哈里宣称。

例如,如果数据集的许可条款不正确或缺失,那么某人可能会投入大量时间和资源开发一个模型,但因为该模型包含私人信息而可能被撤回。

“个人最终可能会在没有完全了解模型能力、关注点或风险的情况下训练模型,而这些最终都源于数据,”朗普雷补充道。

为开始这项研究,研究人员准确地将数据来源定义为数据集的来源、创建、许可历史和特征。他们随后建立了一种结构化的审核方法,以追踪来自知名在线库的1800多个文本数据集的数据来源。

在分析这些数据集后,他们发现超过70%的数据集有“未指定”的许可,缺少重要的信息。然后,他们向后追溯以补全这些信息,将“未指定”许可的数据集的比例减少到约30%。

他们的调查显示,准确的许可通常比存储库分配的许可更加严格。

此外,他们注意到,几乎所有的数据集创建者均来自全球北方,这可能会影响模型在其他地区的性能。例如,一个主要由美国和中国的个人制作的土耳其语数据集可能缺乏文化相关信息,马哈里指出。

“我们经常自欺欺人,以为数据集比实际更具多样性,”他说。

有趣的是,研究人员注意到2023年和2024年创建的数据集在限制方面显著增加,这可能反映了学术界对其数据集被用于意图不明的商业目的的担忧。

用户友好的工具

为了帮助他人获取这些信息,而不必进行手动审核,团队开发了数据来源探测器。该工具不仅允许根据特定标准对数据集进行排序和过滤,还允许用户下载数据来源卡,该卡提供数据集特征的简明、有序概述。

“我们希望这不仅有助于增强对环境的理解,还能赋予人们更好地做出明智决策的能力,关于他们训练的数据,”马哈里表示。

展望未来,研究人员计划扩展研究,以探索多模态数据的数据来源,包括视频和语音。他们还计划分析作为数据源的网站的服务条款如何反映在数据集中。

随着研究的扩展,他们正在与监管者进行互动,讨论他们的发现及与微调数据相关的特定版权含义。

“从一开始就实现数据来源和透明度,数据集创建和发布时,将促进他人更好地获取见解,”朗普雷总结道。