功能介绍
评论列表

详情介绍

VideoPoet是谷歌研究院在2023年12月发布的一款视频生成大模型,它的出现打破了扩散模型在视频生成领域的主导地位。这款模型的核心创新在于采用了解码器-only的Transformer架构,将视频生成任务统一在大语言模型的框架下解决。

VideoPoet的工作原理实很有意思,它先用MAGVIT-v2视频分词器把图像和视频转换成离散的代码序列,再用SoundStream音频分词器处理音频,这样就把视觉和听觉信息都变成了模型能理解的"语言"。然后,这个大语言模型就像写文章一样,一个接一个地预测接下来应该出现什么画面和声音,最终组合成完整的视频。

最让人印象深刻的是,VideoPoet生成的视频动作连贯自然,不像很多视频生成模型那样只能产生小幅变化。它还能生成长达10秒的视频,并且通过重复预测机制,理论上可以实现任意时长的视频生成。谷歌团队甚至用VideoPoet制作了一部关于旅行浣熊的短片,把多个AI生成的片段拼接在一起,讲述了一个完整的故事。

官网入口地址: https://sites.research.google/videopoet/

下载地址:
截至2024年初,VideoPoet仍以研究形式存在,尚未对公众开放使用。官网主要是展示研究成果和示例视频的页面,暂不提供下载或在线体验服务。

功能介绍:

  1. 文本到视频生成: 输入文字描述,VideoPoet就能生成对应内容的视频。比如输入"宇航员骑着奔驰的马",它就能把这个场景活灵活现地展现出来,而且动作幅度大、连贯自然。

  2. 图像到视频动画: 给一张静态图片,再配上文字提示,VideoPoet就能让图片动起来。比如给一张船的图片,输入"的海面上航行的船",模型就能生成动态的海上航行画面。

  3. 视频风格化: 这个功能可以把普通视频转换成不同的艺术风格,比如逼真风格、数字艺术、铅笔艺术、水墨风格、双重曝光等等。你可以让一段普通视频变成动画片效果,或者呈现出油画般的质感。

  4. 视频编辑与扩展: VideoPoet支持视频修复和扩展功能,可以修改视频中的局部内容,或者向外扩展画面边界。它还支持视频帧延续,让视频变得更长更完整。

  5. 视频到音频生成: 更厉害的是,VideoPoet还能根据视频内容自动生成匹配的音频,而且不需要任何文字指导。它直接从视频画面中理解应该配什么声音,然后生成相应的音效或背景音乐。

  6. 长视频生成: 通过自回归方式扩展内容,VideoPoet一次能生成10秒的连贯视频。如果对一秒的视频进行调节,再预测下一秒,反复循环就能生成更长的视频,而且能忠实保留所有对象的外观。

  7. 精确控制运镜: 用户可以在文本提示中添加想要的运镜方式,比如"拉远"、"向左平移"、"弧型运动镜头"、"无人机航拍"等,VideoPoet能够精确理解并执行这些拍摄手法的指令。

  8. 交互式视频编辑: 对于已经生成的视频片段,用户可以通过改变文本描述来调整对象的运动方式。比如让跳舞的浣熊从跳机器人舞变成跳Griddy舞,实现高度灵活的视频控制。

应用场景:

  1. 影视制作与动画创作: 电影制作人和动画师可以用VideoPoet快速生成样片片段,探索不同的视觉风格和叙事,大大提升前期创意阶段的效率。

  2. 广告与营销内容生产: 营销人员输入产品描述和创意概念,就能快速生成多条广告视频素材,测试不同风格的传播效果。

  3. 短视频与社交媒体内容: VideoPoet支持方形和竖屏格式,非常适合TikTok、YouTube Shorts等短视频平台的内容创作。

  4. 教育科普视频制作: 教育工作者可以把抽象概念转化成生动的视频内容,比如让历史场景重现、让科学原理可视化,提升教学吸引力。

  5. 虚拟现实与游戏开发: 游戏和VR内容创作者可以用VideoPoet快速生成环境动画和角色动作,丰富虚拟世界的表现力。

必要信息:
定价与可用性: 目前VideoPoet仍处于研究阶段,尚未正式向公众开放,也没有公布具体的定价方案。据谷歌研究团队透露,当前模型受限于算力成本,暂不具备大规模商用可行性,同时生成的视频分辨率也有待进一步提升。不过,这项技术的意义在于证明了语言模型在视频生成领域的巨大潜力,为未来视频创作工具的进化指明了方向。

VideoPoet常见问题

本文标签