一个跨学科的研究小组创建了一个机器学习框架,旨在仅使用有限数量的水质样本预测地下水中无机污染物的存在。这一创新工具使得监管机构和公共健康官员能够将水质检测工作集中在特定的含水层。
一个跨学科的研究小组创建了一个机器学习框架,旨在仅使用有限数量的水质样本预测地下水中无机污染物的存在。这一创新工具使得监管机构和公共健康官员能够将水质检测工作集中在特定的含水层。
这项初步研究在亚利桑那州和北卡罗来纳州进行,但在其他地区解决地下水质量显著空白方面也可能是有用的。
地下水是数百万人的重要饮用水来源,但它通常含有可能对健康构成风险的污染物。然而,许多地区没有完整的地下水质量数据集。
“监测水质既耗时又昂贵。您检测的污染物越多,成本和时间承诺就越高,”北卡罗来纳州立大学材料科学与工程系的共同通讯作者、神户钢铁杰出教授Yaroslava Yingling表示。
“因此,越来越多的人对确定哪些地下水源应优先进行检测感兴趣,从而更好地利用有限的监测资源,”Yingling解释道。“我们了解到,自然存在的污染物如砷或铅通常与特定的其他元素同时出现,这与地质和环境背景有关。这引发了一个重要的数据驱动问题:在仅有有限水质量数据的情况下,我们能否预测其他污染物的存在和浓度?”
“除了识别潜在的危险元素外,我们还旨在看看是否能预测其他元素的存在,如磷,这对农业是有益的,但可能在其他地方造成环境挑战,”共同首作者、北卡罗来纳州立大学材料科学与工程的教学教授Alexey Gulyuk提到。
为了解决这一挑战,研究团队利用了一个包含来自北卡罗来纳州和亚利桑那州超过140年的地下水质量监测数据的广泛数据集。该数据集包含超过2000万个数据条目,涵盖与水质相关的50多个参数。
“我们利用这个数据集训练了一个机器学习模型,根据现有的水质信息预测哪些污染物可能存在,”共同首作者、前北卡罗来纳州立大学博士生Akhlak Ul Mahmood解释道。“因此,即使我们只有少数参数的信息,系统仍然可以估计可能存在的无机污染物及其浓度。”
研究的一个重要发现是,该模型表明,在更多的地下水源中,污染物可能超出饮用水安全标准,超出了之前的认识。尽管现场数据表明75-80%的采样地点处于安全水平,但机器学习框架指出,只有15%至55%的这些地点可能确实无风险。
“因此,我们已经确定了许多应优先进行进一步检测的地下水位置,”共同首作者、亚利桑那州立大学博士生Minhazul Islam表示。“通过确定潜在的‘热点’,州机构和市政当局可以更有效地将资源分配到高风险区域,确保集中取样和高效的水处理解决方案。”
“这非常有前景,我们相信它有效,”Gulyuk表示。“然而,真正的考验在于在现实世界情况中应用该模型,并验证预测的准确性是否仍然可靠。”
展望未来,研究人员计划通过整合来自美国不同地区的训练数据来完善该模型;包括新的数据来源如环境数据层,以应对新出现的污染物;并进行现实世界实验,以确保全球范围内采取有效的地下水安全措施。
“我们在这种方法中看到了非凡的潜力,”共同通讯作者、亚利桑那州立大学可持续工程与建筑环境学院的regents教授Paul Westerhoff表示。“通过不断提高其准确性并扩大其应用,我们正在为全球主动水安全措施奠定基础。”
“该模型也作为监测地下水中磷水平的有价值工具,帮助我们更有效地识别和减轻潜在的污染风险,”北卡罗来纳州立大学国家科学基金资助的磷可持续性科学与技术中心(STEPS)的主任Jacob Jones表示,支持了这项研究。“未来,将该模型调整以支持更广泛的磷可持续性工作可能会带来实质利益,帮助我们在不同的生态系统和农业系统中管理这种重要营养素,并推动更可持续的实践。”
这项研究由NSF STEPS中心和哈佛大学的金属与金属混合物:认知衰老、修复与暴露来源(MEMCARE)超级基金研究中心资助,该中心接受了国家环境健康科学研究所的P42ES030990拨款的支持。