文本到视频的人工智能在新的变形视频能力中蓬勃发展

电脑科学家们开发了一种新的AI文本转视频模型，能够从延时视频中学习现实世界的物理知识。

尽管像OpenAI的Sora这样的文本转视频人工智能模型正在迅速在我们面前发生变化，但它们在生成变形视频方面仍然存在困难。模拟树木发芽或花朵绽放对AI系统来说比生成其他类型的视频更难，因为这需要对物理世界的知识，并且可能变化很大。

但现在，这些模型已经迈出了一个进化的步骤。

罗切斯特大学、北京大学、加州大学圣克鲁兹分校和新加坡国立大学的计算机科学家们开发了一种新的AI文本转视频模型，它可以从延时视频中学习现实世界的物理知识。该团队在发表在IEEE Transactions on Pattern Analysis and Machine Intelligence上的论文中概述了他们的模型MagicTime。

罗切斯特大学计算机科学系的教授Jiebo Luo指导的博士生Jinfa Huang表示：“人工智能的开发旨在理解现实世界，并模拟发生的活动和事件。MagicTime是朝着能够更好地模拟我们周围世界的物理、化学、生物或社会属性的AI迈出的一步。”

之前的模型生成的视频通常运动有限且变化较差。为了训练AI模型更有效地模仿变形过程，研究人员开发了一个包含超过2000个带有详细说明的高质量延时视频的数据集。

目前，MagicTime的开源U-Net版本生成2秒、512 乘 512像素的剪辑（以每秒8帧的速度），而一个伴随的扩散变换架构将其扩展到10秒的剪辑。该模型不仅可以模拟生物变形，还可以模拟正在建设的建筑物或在烤箱中烤面包的过程。

尽管生成的视频在视觉上令人感兴趣，演示也很有趣，但研究人员认为这是朝着更复杂模型的重要一步，这些模型可以为科学家提供重要工具。

黄表示：“我们的希望是，有一天，例如生物学家可以使用生成视频来加速初步探索想法。尽管物理实验在最终验证中仍不可或缺，但准确的模拟可以缩短迭代周期并减少所需的现场试验次数。”

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

拉斯维加斯著名贝拉吉奥喷泉旁发生枪击事件，2人死亡

特朗普在移民问题上获得选民的最好评价，但总体支持率仍然较低

Chipotle将在五年来首次推出新的蘸酱。你能猜到是什么口味吗？

抵押贷款公司火箭正在收购房地产经纪公司Redfin。两位首席执行官与YSL新闻进行了交谈。

文本到视频的人工智能在新的变形视频能力中蓬勃发展

光子量子芯片让人工智能变得更智能和更环保

过时手机如何为智能城市提供动力并拯救海洋

光子在虚空中碰撞：量子模拟从无中创造光线