一个研究团队创造了一种创新的方法,提升了对表格数据的预测能力,特别是对于包含不到10,000条记录的小型数据集。新开发的人工智能模型TabPFN在应用之前先在合成数据上进行训练,使其能够学习如何评估潜在的因果关系,从而利用这些关系进行准确的预测。
由弗莱堡大学的Frank Hutter教授领导的机器学习算法TabPFN,专注于解决填补缺失数据或识别异常等问题。这种人工智能(AI)受到了大型语言模型学习技术的启发。通过从合成数据中学习,TabPFN在进行准确预测方面通常比迄今为止使用的传统算法更为擅长。这些研究成果已发表在期刊Nature上。其他参与该研究的机构包括弗莱堡大学医学中心、柏林大学医学系、弗莱堡的初创公司PriorLabs和图宾根的ELLIS研究所。
数据集,无论是与特定药物的效果相关还是与CERN加速器中的粒子轨迹相关,通常是不完整的或存在错误。因此,科学数据分析的一个重要方面是识别异常或对缺失数据进行合理估计。目前的算法,如XGBoost,在大规模数据集上表现良好,但在小型数据集上往往不太可靠。
TabPFN模型通过在人工生成的数据上进行训练来应对这一挑战,这些数据旨在反映现实世界的情况。研究人员创建数据表,其中各列中的字段有因果联系。TabPFN从一亿个这样的合成数据集中学习,使模型能够评估多个潜在的因果关系以进行预测。
与其同行相比,这种模型在处理少于10,000条记录的较小表格、众多离群值或许多缺失值时表现显著优越。例如,TabPFN可以在仅使用50%数据的情况下实现与先前最佳表现模型相同的准确性。此外,在管理新类型数据方面,它表现出更高的效率,能够适应类似的数据集,而无需每次都重新开始学习过程。这种适应性类似于Meta开发的Llama等语言模型的微调。该模型还允许用户从数据集中推导概率密度,并创建具有相似特征的新数据。
‘TabPFN能够快速且可靠地从表格数据中生成预测的能力在多个领域中都有优势,从生物医学到经济学和物理学,’ Hutter说。’TabPFN提供了更快速的优越结果,特别是资源效率高,非常适合小型公司和研究团队。’ 源代码和使用说明可在此处获取。研究人员计划进一步增强该AI,以确保在处理更大数据集时也能进行最佳预测。