抑郁症是一种普遍的心理健康问题,全球约有2.8亿人受到影响。为应对这一挑战,立陶宛考那斯科技大学(KTU)的研究人员创建了一种旨在通过分析语音和大脑神经活动来检测抑郁症的人工智能(AI)模型。通过整合这两种数据来源,他们的方法提供了对个人情感状态更准确和公正的评估,为抑郁症诊断的进步铺平了道路。
“抑郁症是一种普遍的心理障碍,可能对个人和社会造成严重影响。因此,我们正在开发一种新的、更客观的诊断方法,最终可以让每个人都能获得,”KTU教授、这一创新的研究之一的Rytis Maskeliūnas表示。
研究人员声称,以往大多数抑郁症的诊断研究主要依赖于单一数据类型。然而,新的多模态方法旨在更全面地理解个人的情感状态。
利用语音和大脑活动数据实现高准确率
这一创新的语音和大脑活动数据组合在抑郁症诊断中实现了高达97.53%的准确率,远超其他现有方法。“加入语音数据增强了我们的研究,因为它揭示了我们目前仅从大脑活动无法收集的方面,”Maskeliūnas解释道。
参与研究的KTU博士生Musyyab Yousufi详细阐述了他们的数据选择:“虽然人们常常认为面部表情可以提供对一个人心理状态的洞察,但这些数据容易被操控。我们选择语音,因为它可以通过语速、语调和整体能量的变化微妙地传达情感状态。”
此外,与脑电图(EEG)或语音数据不同,面部表情只能在一定限度上表明一个人病情的严重性。“然而,我们必须尊重患者的隐私,从多个来源收集和整合数据对未来的应用更为有益,”来自KTU信息学院(IF)的教授解释道。
Maskeliūnas强调,所使用的EEG数据来自用于心理障碍分析的多模态开放数据集(MODMA),明确表明KTU的研究团队专注于计算机科学而非医学。
MODMA的EEG数据是在参与者清醒、休息并闭眼的情况下,在五分钟内收集的。在研究的音频部分,参与者参与了问答环节,以及阅读和描述图像的活动,以捕捉他们的自然语言使用和认知状态。
人工智能必须学会支持其诊断结论
收集到的EEG和音频信号被转化为可视化的频谱图。利用专门的噪声过滤器和预处理技术消除噪声并确保可比性,同时采用经过修改的DenseNet-121深度学习模型识别图像中的抑郁症迹象。每个图像描绘了信号随时间的变化,EEG数据代表大脑活动波形,音频数据显示频率和强度分布。
该模型包含一个经过训练的自定义分类层,用于将数据分类为健康与抑郁个体。此分类过程经过严格评估,然后对应用程序的准确性进行评估。
未来,这一人工智能模型有潜力加快抑郁症的诊断,甚至可能实现远程评估,减少对主观评估的依赖。然而,这一进展仍依赖于未来的临床试验以及对程序的改进。不过,Maskeliūnas指出,这一研究方面可能会带来自身的一系列挑战。
“这些研究的主要挑战是数据稀缺,因为许多人倾向于将心理健康问题保密,”他解释道。
来自KTU多媒体工程系的教授强调的另一个关键方面是,算法不仅需要准确,还需要为医疗专业人员提供有关其如何得出诊断结论的见解。“算法仍然需要学习以可理解的方式呈现这些诊断,”Maskeliūnas指出。
KTU教授进一步表示,考虑到对直接影响不同行业(如医疗、金融和法律系统)个人的人工智能解决方案的需求日益增加,对人工智能可解释性的需求正在逐渐普及。
这一趋势促进了可解释人工智能(XAI)的兴起,旨在阐明模型决策背后的推理,以增强用户对人工智能系统的信任。