电脑科学家们开发了一种新的AI文本转视频模型,能够从延时视频中学习现实世界的物理知识。
尽管像OpenAI的Sora这样的文本转视频人工智能模型正在迅速在我们面前发生变化,但它们在生成变形视频方面仍然存在困难。模拟树木发芽或花朵绽放对AI系统来说比生成其他类型的视频更难,因为这需要对物理世界的知识,并且可能变化很大。
但现在,这些模型已经迈出了一个进化的步骤。
罗切斯特大学、北京大学、加州大学圣克鲁兹分校和新加坡国立大学的计算机科学家们开发了一种新的AI文本转视频模型,它可以从延时视频中学习现实世界的物理知识。该团队在发表在IEEE Transactions on Pattern Analysis and Machine Intelligence上的论文中概述了他们的模型MagicTime。
罗切斯特大学计算机科学系的教授Jiebo Luo指导的博士生Jinfa Huang表示:“人工智能的开发旨在理解现实世界,并模拟发生的活动和事件。MagicTime是朝着能够更好地模拟我们周围世界的物理、化学、生物或社会属性的AI迈出的一步。”
之前的模型生成的视频通常运动有限且变化较差。为了训练AI模型更有效地模仿变形过程,研究人员开发了一个包含超过2000个带有详细说明的高质量延时视频的数据集。
目前,MagicTime的开源U-Net版本生成2秒、512 乘 512像素的剪辑(以每秒8帧的速度),而一个伴随的扩散变换架构将其扩展到10秒的剪辑。该模型不仅可以模拟生物变形,还可以模拟正在建设的建筑物或在烤箱中烤面包的过程。
尽管生成的视频在视觉上令人感兴趣,演示也很有趣,但研究人员认为这是朝着更复杂模型的重要一步,这些模型可以为科学家提供重要工具。
黄表示:“我们的希望是,有一天,例如生物学家可以使用生成视频来加速初步探索想法。尽管物理实验在最终验证中仍不可或缺,但准确的模拟可以缩短迭代周期并减少所需的现场试验次数。”