革命性的人类动作识别：人工智能技术的突破性飞跃

研究人员推出了一种创新的人工智能视频分析器，可以准确地识别视频内容中的人类行为。

想象一下，一台不仅仅是录制的监控摄像头；它可以通过区分正常活动和可疑行为来实时解释事件。这一愿景在弗吉尼亚大学工程与应用科学学院正在成为现实，得益于他们尖端的研发：一种基于人工智能的智能视频分析器，以惊人的准确性和智能识别视频中的人类行为。

这项技术被称为语义和运动感知时空变换网络（SMAST），为社会提供了多种优势，如增强监控、提高公共安全、促进医疗保健中的高级运动跟踪，并优化自动驾驶汽车在复杂环境中的导航方式。

“这一人工智能创新能够在挑战性环境中实现实时动作识别，”领导研究团队的电气与计算机工程系教授兼系主任斯科特·T·阿克顿评论道。“这一进展可能在预防事件、改善诊断和潜在地挽救生命方面发挥至关重要的作用。”

革命性的人工智能带来详细的视频洞察

那么，SMAST是如何运作的呢？它的核心是利用人工智能。该系统基于两个基本要素来识别和理解复杂的人类行为。第一个要素是多特征选择性注意模型，使人工智能能够专注于场景中的重要方面，如个人或物体，同时忽视无关细节。这提高了识别行为的准确性，例如区分某人投掷球和单纯地移动手臂。

第二个关键组件是运动感知的二维位置编码算法，帮助人工智能跟踪随时间变化的动作。想象一下，视频中人们不断更换位置；这项工具使人工智能能够记住这些动作并理解它们的相互关系。通过结合这些特征，SMAST能够有效地实时识别复杂的动作，从而提高在监控、医学诊断或自动驾驶等高风险环境中的性能。

SMAST改变了机器识别和解释人类活动的方式。现有系统通常在连续未编辑的视频素材中遇到困难，经常失去动作的上下文。相比之下，SMAST的先进设计使其能够准确捕捉人和物体之间的动态交互，这得益于使其能够从数据中学习和发展的人工智能组件。

提升动作检测技术的标准

这一技术进步意味着人工智能可以识别如跑步者过马路、医生进行精确医学操作或甚至在拥挤区域检测安全风险等动作。SMAST在AVDA、UCF101-24和EPIC-Kitchens等基本学术基准上已经超过了领先解决方案，建立了精准性和效率的新标准。

“对社会的潜在影响是显著的，”阿克顿实验室的博士后研究员马修·科尔班评论道，他参与了这一计划。“我们渴望看到这一人工智能技术如何彻底改变各个行业，使基于视频的系统变得更加智能和能够实时理解。”

这项研究详细内容在《IEEE模式分析与机器智能汇刊》中发表的文章《用于动作检测的语义和运动感知时空变换网络》中说明。参与作者包括弗吉尼亚大学的马修·科尔班、彼得·扬斯和斯科特·T·阿克顿。

该项目得到了国家科学基金会（NSF）在资助号2000487和资助号2322993下的支持。