据品玩援引 HuggingFace 报道,百度的视觉技术研究团队近日发布论文,推出了一款视频生成模型产品 VideoGen。论文显示,研究团队先通过图像生成模型用文本生成高质量图片,之后引入了一个以参考图像和文本提示为条件的高效级联潜在扩散模块,用于生成潜在视频,之后通过增强型视频解码器将潜在视频表示映射为高清视频。
原文链接
据品玩援引 HuggingFace 报道,百度的视觉技术研究团队近日发布论文,推出了一款视频生成模型产品 VideoGen。论文显示,研究团队先通过图像生成模型用文本生成高质量图片,之后引入了一个以参考图像和文本提示为条件的高效级联潜在扩散模块,用于生成潜在视频,之后通过增强型视频解码器将潜在视频表示映射为高清视频。
原文链接