研究人员推出了一种创新的人工智能视频分析器,可以准确地识别视频内容中的人类行为。
想象一下,一台不仅仅是录制的监控摄像头;它可以通过区分正常活动和可疑行为来实时解释事件。这一愿景在弗吉尼亚大学工程与应用科学学院正在成为现实,得益于他们尖端的研发:一种基于人工智能的智能视频分析器,以惊人的准确性和智能识别视频中的人类行为。
这项技术被称为语义和运动感知时空变换网络(SMAST),为社会提供了多种优势,如增强监控、提高公共安全、促进医疗保健中的高级运动跟踪,并优化自动驾驶汽车在复杂环境中的导航方式。
“这一人工智能创新能够在挑战性环境中实现实时动作识别,”领导研究团队的电气与计算机工程系教授兼系主任斯科特·T·阿克顿评论道。“这一进展可能在预防事件、改善诊断和潜在地挽救生命方面发挥至关重要的作用。”
革命性的人工智能带来详细的视频洞察
那么,SMAST是如何运作的呢?它的核心是利用人工智能。该系统基于两个基本要素来识别和理解复杂的人类行为。第一个要素是多特征选择性注意模型,使人工智能能够专注于场景中的重要方面,如个人或物体,同时忽视无关细节。这提高了识别行为的准确性,例如区分某人投掷球和单纯地移动手臂。
第二个关键组件是运动感知的二维位置编码算法,帮助人工智能跟踪随时间变化的动作。想象一下,视频中人们不断更换位置;这项工具使人工智能能够记住这些动作并理解它们的相互关系。通过结合这些特征,SMAST能够有效地实时识别复杂的动作,从而提高在监控、医学诊断或自动驾驶等高风险环境中的性能。
SMAST改变了机器识别和解释人类活动的方式。现有系统通常在连续未编辑的视频素材中遇到困难,经常失去动作的上下文。相比之下,SMAST的先进设计使其能够准确捕捉人和物体之间的动态交互,这得益于使其能够从数据中学习和发展的人工智能组件。
提升动作检测技术的标准
这一技术进步意味着人工智能可以识别如跑步者过马路、医生进行精确医学操作或甚至在拥挤区域检测安全风险等动作。SMAST在AVDA、UCF101-24和EPIC-Kitchens等基本学术基准上已经超过了领先解决方案,建立了精准性和效率的新标准。
“对社会的潜在影响是显著的,”阿克顿实验室的博士后研究员马修·科尔班评论道,他参与了这一计划。“我们渴望看到这一人工智能技术如何彻底改变各个行业,使基于视频的系统变得更加智能和能够实时理解。”
这项研究详细内容在《IEEE模式分析与机器智能汇刊》中发表的文章《用于动作检测的语义和运动感知时空变换网络》中说明。参与作者包括弗吉尼亚大学的马修·科尔班、彼得·扬斯和斯科特·T·阿克顿。
该项目得到了国家科学基金会(NSF)在资助号2000487和资助号2322993下的支持。