研究人员开发了一种新的人工智能(AI)技术,使机器视觉更接近人脑处理图像的方式。这种被称为Lp-卷积的方法提高了图像识别系统的准确性和效率,同时减少了现有AI模型的计算负担。
来自基础科学研究院(IBS)、延世大学和马克斯·普朗克研究所的研究团队开发了一种新的人工智能(AI)技术,使机器视觉更接近人脑处理图像的方式。这种被称为Lp-卷积的方法提高了图像识别系统的准确性和效率,同时减少了现有AI模型的计算负担。
弥合CNN与人脑之间的差距
人脑在复杂场景中识别关键细节方面表现出非凡的效率,而传统的AI系统在这方面一直难以复制。卷积神经网络(CNN)——用于图像识别的最广泛使用的AI模型——使用小的方形滤波器处理图像。虽然有效,但这种僵化的方法限制了它们捕获破碎数据中更广泛模式的能力。
最近,视觉变换器(ViT)通过一次性分析整个图像表现出更优的性能,但它们需要大量的计算能力和大数据集,使其在许多现实应用中变得不切实际。
受到大脑视觉皮层通过圆形、稀疏连接选择性处理信息的启发,研究团队寻求一种中间道路:脑科学方法是否能够使CNN同时高效且强大?
介绍Lp-卷积:更智能的视觉方法
为此,团队开发了Lp-卷积,这是一种新方法,使用多元p-广义正态分布(MPND)动态重新塑形CNN滤波器。与传统CNN使用固定的方形滤波器不同,Lp-卷积允许AI模型根据任务调整其滤波器形状——水平或垂直拉伸,这类似于人脑选择性聚焦于相关细节的方式。
这一突破解决了AI研究中的一个长期挑战,称为大核问题。仅仅在CNN中增加滤波器的大小(例如,使用7×7或更大的核)通常并不会改善性能,尽管增加了更多参数。Lp-卷积通过引入灵活的生物学启发的连接模式克服了这一限制。
现实世界表现:更强大、更智能、更鲁棒的AI
在标准图像分类数据集(CIFAR-100、TinyImageNet)的测试中,Lp-卷积显著提高了经典模型如AlexNet和现代架构如RepLKNet的准确性。该方法还证明对损坏数据具有高鲁棒性,这是现实世界AI应用中的一个主要挑战。
此外,研究人员发现,当他们方法中使用的Lp-掩码类似于高斯分布时,AI的内部处理模式与生物神经活动密切匹配,通过与鼠脑数据的比较得到了证实。
基础科学研究院认知与社会中心主任C. Justin LEE博士表示:“我们人类能够迅速识别拥挤场景中的重要内容。我们的Lp-卷积模仿了这种能力,使AI能够灵活地关注图像中最相关的部分——就像大脑一样。”
影响与未来应用
与以往依赖小而僵化的滤波器或需要大量资源的变换器的努力不同,Lp-卷积提供了一个实用、高效的替代方案。这一创新可能会在以下领域产生革命性影响:
– 自动驾驶,AI必须实时快速检测障碍物
– 医学成像,通过突出细微细节改善基于AI的诊断
– 机器人技术,提高在变化条件下的更智能且更适应的机器视觉
主任C. Justin Lee表示:“这项工作对AI和神经科学都是一个强有力的贡献。通过使AI与大脑更加紧密对齐,我们为CNN解锁了新的潜力,使其更智能、更适应且更具生物现实性。”
展望未来,团队计划进一步优化该技术,探索其在复杂推理任务(如解谜(例如数独)和实时图像处理)中的应用。
该研究将于2025年国际学习表示大会(ICLR)上进行展示,研究团队已公开发布其代码和模型:
更多信息:https://github.com/jeakwon/lpconv/。