拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件,2人死亡

  拉斯维加斯著名的贝拉吉奥喷泉附近发生枪击事件,两人死亡 根据警方的消息,一名与拉斯维加斯著名贝拉吉奥喷泉附近发生的致命枪击事件有关的嫌疑人已被逮捕。   41岁的曼努埃尔·鲁伊斯于6月9日自首,因涉嫌在著名喷泉前向两名受害者开枪而被拘留,拉斯维加斯大都会警察局(LVMPD)表示。…
技术尖端人工智能能否破解视觉难题并解决抽象推理?

尖端人工智能能否破解视觉难题并解决抽象推理?

人工智能已经在语言、艺术创作甚至击败国际象棋冠军方面变得熟练。然而,它能否解开抽象推理的复杂性——那些经常让人类感到困惑的视觉难题?研究人员正在评估人工智能的认知能力,通过推动多模态大型语言模型(MLLMs)来解决通常与人类智商测试相关的视觉问题。结果如何?揭示了人工智能的进展和它仍然遇到困难的领域。

人工智能在语言、艺术创作、甚至超越国际象棋冠军方面变得熟练。但它能否理解抽象推理——那些复杂的视觉难题,可能会让人类感到困惑?南加州大学维特比工程学院信息科学研究所(ISI)的研究人员正在评估人工智能的认知技能,测试多模态大型语言模型(MLLMs)在曾被认为是人类智商评估独有的视觉任务的表现。这一结果提供了对人工智能进展的洞察,以及它继续面临挑战的地方。

南加州大学维特比ISI的研究助理基安·阿哈巴恩和扎伊瓦尔·苏拉蒂最近探讨了MLLMs是否能够处理非语言抽象推理——需要视觉理解和逻辑思维的任务。他们将在2024年10月7日至9日在宾夕法尼亚州费城举行的即将召开的语言建模会议(COLM 2024)上分享他们的发现。

南加州大学维特比的计算机科学研究副教授、研究的共同作者杰伊·普贾拉表示:“我们每天都被关于人工智能能力的新消息淹没,这些消息往往是相当意外的。我们对新人工智能模型能够实现的理解仍然非常有限,直到我们理解这些限制,我们才能提升人工智能,使其变得更好、更安全和更实用。这项研究有助于阐明人工智能所面临的一个先前不清楚的方面。”

挑战:人工智能能否看和思考?

阿哈巴恩澄清道:“我们的目标是确定这代大型模型是否能够独立思考,能够处理图像。”例如,如果你观察到一个黄色圆圈变成一个蓝色三角形,模型能否在其他情况下使用相同的模式?”

为了调查这一点,团队对24个不同的MLLM进行了评估,这些难题来源于拉文的渐进矩阵,这是一个备受尊敬的抽象推理测量工具。他们发现开源模型存在重大困难。“它们的表现糟糕透顶,无法从中得出任何有价值的东西,”阿哈巴恩坦诚地说。

相比之下,闭源模型如GPT-4V——由私营实体开发并不开放修改——展示了更好的结果。这些模型通常受益于更先进的训练资源,包括更大的数据集和更强的计算能力,因此具有明显的优势。“我们注意到闭源模型的一些显著结果,”阿哈巴恩补充道,“特别是,GPT-4V表现出合理的推理能力,尽管仍然不完善。”

人工智能的失误之处

这项研究的一个重要方面是找出这些模型表现不佳的地方。一个主要关切是人工智能准确处理视觉数据的能力。“我们旨在找出模型是否能够感知更细微的细节——如颜色或交叉的线条——这是否导致了它们的错误,”阿哈巴恩解释道。

为了缩小问题范围,研究人员提供了图像的全面文字描述,确保模型在不同格式中拥有所有相关信息。“即使我们排除了视觉方面,仅提供文本,许多模型仍然难以有效推理,”苏拉蒂指出。这突显了一个重要的认识:挑战不仅与视觉处理有关,还源于推理本身。这使团队能够更好地理解失败的点,并指导他们未来的改进。

前进的道路:改善人工智能的推理

研究人员考察的一个令人鼓舞的策略是“思维链提示”,该方法涉及指导人工智能有条理地解决推理任务。这种方法在特定情况下取得了显著的进展。“通过向模型提供提示,我们观察到性能提高了多达100%,”阿哈巴恩表示。

尽管面临持续的挑战,研究人员仍然保持希望。这项研究的结论强调了当前人工智能的局限性以及未来发展的良好前景。随着这些模型的发展,南加州大学的研究可能在创造不仅理解而且推理的人工智能中发挥关键作用——缩小机器认知与人类思维之间的差距。

新会议上的新研究

阿哈巴恩和苏拉蒂,计算机科学托马斯·洛德系的博士候选人,本周在COLM会议上展示了他们的论文“多模态大型语言模型的非语言抽象推理的奇特案例”,这是会议的首次举行。

普贾拉同时也在ISI的知识图谱中心担任主任,他表示:“人工智能正在经历重大变革,语言模型的崛起。像COLM这样的新会议的出现,为促进这种演变提供了一个很好的机会,以促进合作并激励那些希望为这一迅速发展的领域做出贡献的学生。”