站长之家(ChinaZ.com)4月20日 消息:Nvidia公布了其基于Stable Diffusion 模型开发的文本转视频模型—— Nvidia Video LDM。Nvidia通过对现有模型的微调,大大减少了生成视频的过程和时间。
该模型增加了一个时间维度,可以在多个帧上实现时间对齐的图像合成。该团队训练了一个视频模型,以512x1024像素的分辨率生成几分钟的汽车行驶视频,在大多数基准测试中达到SOTA。
(相关资料图)
注:图片来自Nvidia Video LDM项目截图
除了这个与自动驾驶研究特别相关的演示之外,研究人员还展示了如何将现有的Stable Diffusion 型转换为视频模型。
该团队在微调步骤中用视频数据短时间训练Stable Diffusion,然后在网络中每个现有空间层后面添加额外的时间层,并用视频数据对其进行训练。此外,该团队还训练了时间稳定的放大器,以根据文本提示生成1,280x2,048分辨率的视频。
以 Stable Diffusion 作为视频模型的基础,团队无需从头开始训练新模型,可以从现有的能力和方法中获益。例如,尽管使用的 WebVid-10M 数据集仅包含真实世界的视频,基于底层的Stable Diffusion模型,该模型也可以生成艺术视频。所有视频的长度都在3.8到4.7秒之间——具体取决于帧速率。
研究团队还该展示如何使用 Dreambooth 对视频模型进行个性化设置。,生成包含不属于原始训练数据的对象的视频。这为内容创作者开辟了新的可能性,他们可以使用 DreamBooth 进行视频创作。
注:Dreambooth 是对整个神经网络所有层权重进行调整,会将输入的图像训练进 Stable Diffusion 模型,它的本质是先复制了源模型,在源模型的基础上做了微调(fine tunning)并独立形成了一个新模型。
Nvidia Video LDM项目页面上有更多示例,不过该模型目前尚未对外开放。
项目网址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/
(举报)
X 关闭
2022年中国家电行业一季度报告:国内累计销售额1540亿元
31省份新增本土确诊病例2971例、本土无症状感染者21355例
南方强降雨再起 北方周末暖热回归
南方地区将有明显降水过程 黄海南部海域有大雾
吴谢宇弑母案二审因“不可抗拒原因”中止审理
X 关闭
240余万吨!国家电投内蒙古公司圆满完成民生供暖煤供应工作
厨电行业逆势增长 集成洗碗机是集成灶行业的下一个风口吗?
梦天家居2021年度净利润1.83亿元 同比增长7.04%
亚振家居发布2021年年度亏损公告 营业收入同比下降11.53%
盾安环境9.71%股份转让悬而未决 一致行动人抛出减持计划