灵感来自大脑的人工智能突破：让计算机的视觉更像人类

研究人员开发了一种新的人工智能（AI）技术，使机器视觉更接近人脑处理图像的方式。这种被称为Lp-卷积的方法提高了图像识别系统的准确性和效率，同时减少了现有AI模型的计算负担。

来自基础科学研究院（IBS）、延世大学和马克斯·普朗克研究所的研究团队开发了一种新的人工智能（AI）技术，使机器视觉更接近人脑处理图像的方式。这种被称为Lp-卷积的方法提高了图像识别系统的准确性和效率，同时减少了现有AI模型的计算负担。

弥合CNN与人脑之间的差距

人脑在复杂场景中识别关键细节方面表现出非凡的效率，而传统的AI系统在这方面一直难以复制。卷积神经网络（CNN）——用于图像识别的最广泛使用的AI模型——使用小的方形滤波器处理图像。虽然有效，但这种僵化的方法限制了它们捕获破碎数据中更广泛模式的能力。

最近，视觉变换器（ViT）通过一次性分析整个图像表现出更优的性能，但它们需要大量的计算能力和大数据集，使其在许多现实应用中变得不切实际。

受到大脑视觉皮层通过圆形、稀疏连接选择性处理信息的启发，研究团队寻求一种中间道路：脑科学方法是否能够使CNN同时高效且强大？

介绍Lp-卷积：更智能的视觉方法

为此，团队开发了Lp-卷积，这是一种新方法，使用多元p-广义正态分布（MPND）动态重新塑形CNN滤波器。与传统CNN使用固定的方形滤波器不同，Lp-卷积允许AI模型根据任务调整其滤波器形状——水平或垂直拉伸，这类似于人脑选择性聚焦于相关细节的方式。

这一突破解决了AI研究中的一个长期挑战，称为大核问题。仅仅在CNN中增加滤波器的大小（例如，使用7×7或更大的核）通常并不会改善性能，尽管增加了更多参数。Lp-卷积通过引入灵活的生物学启发的连接模式克服了这一限制。

现实世界表现：更强大、更智能、更鲁棒的AI

在标准图像分类数据集（CIFAR-100、TinyImageNet）的测试中，Lp-卷积显著提高了经典模型如AlexNet和现代架构如RepLKNet的准确性。该方法还证明对损坏数据具有高鲁棒性，这是现实世界AI应用中的一个主要挑战。

此外，研究人员发现，当他们方法中使用的Lp-掩码类似于高斯分布时，AI的内部处理模式与生物神经活动密切匹配，通过与鼠脑数据的比较得到了证实。

基础科学研究院认知与社会中心主任C. Justin LEE博士表示：“我们人类能够迅速识别拥挤场景中的重要内容。我们的Lp-卷积模仿了这种能力，使AI能够灵活地关注图像中最相关的部分——就像大脑一样。”

影响与未来应用

与以往依赖小而僵化的滤波器或需要大量资源的变换器的努力不同，Lp-卷积提供了一个实用、高效的替代方案。这一创新可能会在以下领域产生革命性影响：

– 自动驾驶，AI必须实时快速检测障碍物

– 医学成像，通过突出细微细节改善基于AI的诊断

– 机器人技术，提高在变化条件下的更智能且更适应的机器视觉

主任C. Justin Lee表示：“这项工作对AI和神经科学都是一个强有力的贡献。通过使AI与大脑更加紧密对齐，我们为CNN解锁了新的潜力，使其更智能、更适应且更具生物现实性。”

展望未来，团队计划进一步优化该技术，探索其在复杂推理任务（如解谜（例如数独）和实时图像处理）中的应用。

该研究将于2025年国际学习表示大会（ICLR）上进行展示，研究团队已公开发布其代码和模型：

更多信息：https://github.com/jeakwon/lpconv/。