详情介绍
VideoPoet是谷歌研究院在2023年12月发布的一款视频生成大模型,它的出现打破了扩散模型在视频生成领域的主导地位。这款模型的核心创新在于采用了解码器-only的Transformer架构,将视频生成任务统一在大语言模型的框架下解决。
VideoPoet的工作原理实很有意思,它先用MAGVIT-v2视频分词器把图像和视频转换成离散的代码序列,再用SoundStream音频分词器处理音频,这样就把视觉和听觉信息都变成了模型能理解的"语言"。然后,这个大语言模型就像写文章一样,一个接一个地预测接下来应该出现什么画面和声音,最终组合成完整的视频。
最让人印象深刻的是,VideoPoet生成的视频动作连贯自然,不像很多视频生成模型那样只能产生小幅变化。它还能生成长达10秒的视频,并且通过重复预测机制,理论上可以实现任意时长的视频生成。谷歌团队甚至用VideoPoet制作了一部关于旅行浣熊的短片,把多个AI生成的片段拼接在一起,讲述了一个完整的故事。
官网入口地址: https://sites.research.google/videopoet/
下载地址:
截至2024年初,VideoPoet仍以研究形式存在,尚未对公众开放使用。官网主要是展示研究成果和示例视频的页面,暂不提供下载或在线体验服务。
功能介绍:
-
文本到视频生成: 输入文字描述,VideoPoet就能生成对应内容的视频。比如输入"宇航员骑着奔驰的马",它就能把这个场景活灵活现地展现出来,而且动作幅度大、连贯自然。
-
图像到视频动画: 给一张静态图片,再配上文字提示,VideoPoet就能让图片动起来。比如给一张船的图片,输入"的海面上航行的船",模型就能生成动态的海上航行画面。
-
视频风格化: 这个功能可以把普通视频转换成不同的艺术风格,比如逼真风格、数字艺术、铅笔艺术、水墨风格、双重曝光等等。你可以让一段普通视频变成动画片效果,或者呈现出油画般的质感。
-
视频编辑与扩展: VideoPoet支持视频修复和扩展功能,可以修改视频中的局部内容,或者向外扩展画面边界。它还支持视频帧延续,让视频变得更长更完整。
-
视频到音频生成: 更厉害的是,VideoPoet还能根据视频内容自动生成匹配的音频,而且不需要任何文字指导。它直接从视频画面中理解应该配什么声音,然后生成相应的音效或背景音乐。
-
长视频生成: 通过自回归方式扩展内容,VideoPoet一次能生成10秒的连贯视频。如果对一秒的视频进行调节,再预测下一秒,反复循环就能生成更长的视频,而且能忠实保留所有对象的外观。
-
精确控制运镜: 用户可以在文本提示中添加想要的运镜方式,比如"拉远"、"向左平移"、"弧型运动镜头"、"无人机航拍"等,VideoPoet能够精确理解并执行这些拍摄手法的指令。
-
交互式视频编辑: 对于已经生成的视频片段,用户可以通过改变文本描述来调整对象的运动方式。比如让跳舞的浣熊从跳机器人舞变成跳Griddy舞,实现高度灵活的视频控制。
应用场景:
-
影视制作与动画创作: 电影制作人和动画师可以用VideoPoet快速生成样片片段,探索不同的视觉风格和叙事,大大提升前期创意阶段的效率。
-
广告与营销内容生产: 营销人员输入产品描述和创意概念,就能快速生成多条广告视频素材,测试不同风格的传播效果。
-
短视频与社交媒体内容: VideoPoet支持方形和竖屏格式,非常适合TikTok、YouTube Shorts等短视频平台的内容创作。
-
教育科普视频制作: 教育工作者可以把抽象概念转化成生动的视频内容,比如让历史场景重现、让科学原理可视化,提升教学吸引力。
-
虚拟现实与游戏开发: 游戏和VR内容创作者可以用VideoPoet快速生成环境动画和角色动作,丰富虚拟世界的表现力。
必要信息:
定价与可用性: 目前VideoPoet仍处于研究阶段,尚未正式向公众开放,也没有公布具体的定价方案。据谷歌研究团队透露,当前模型受限于算力成本,暂不具备大规模商用可行性,同时生成的视频分辨率也有待进一步提升。不过,这项技术的意义在于证明了语言模型在视频生成领域的巨大潜力,为未来视频创作工具的进化指明了方向。
VideoPoet常见问题
VideoPoet是由谷歌研究团队开发的,具体来说是由谷歌研究院和谷歌DeepMind的科学家们共同完成的项目。论文的作者团队来自谷歌的不同研究部门。
VideoPoet的官网地址是 https://sites.research.google/videopoet/ 不过要提醒你,这个网站主要是展示研究成果和示例视频的页面,目前还不能直接在线使用这个工具。
VideoPoet是谷歌开发的一款AI视频生成模型,它最特别的地方是用大语言模型的方式来理解视频。它能把文字、图片变成动态视频,还能给视频换风格、加音效。跟市面上的他视频生成工具不一样,它不是用扩散模型,而是用Transformer架构,生成的动作更连贯自然。
目前VideoPoet还没有对公众开放使用,官网只能看到演示视频和技术介绍。如果要使用的话,大概的流程是:输入文字描述或上传图片,选择想要的视频长度和风格,然后模型就会生成对应的视频。不过这些都是理论上的操作,实际能用还得等谷歌正式发布。
现在VideoPoet还在研究阶段,没正式上线,所以谈不上免费还是收费。等将来真的发布了,定价方式还得看谷歌的商业策略。参考目前市面上的AI视频工具,有是订阅制,也按生成时长收费,具体要等官方消息。
VideoPoet一次能生成10秒的连贯视频,这已经比市面上很多只能生成3-4秒的模型强多了。而且它还有个厉害的地方,通过反复预测机制,理论上可以生成任意时长的视频,而且能一直保持画面中物体的样子不变。
VideoPoet在动作幅度和连贯性上表现更出色,能生成大幅度的动作而不会出现画面崩坏。但问题是它还没开放使用,而Gen-2和Pika都已经能让用户实际体验了。所以现在说谁更好还为时过早,等VideoPoet真正上线了才能做实际对比。
能,这是它的一大特色。VideoPoet不仅可以生成视频,还能根据画面内容自动生成匹配的音频,而且不需要任何文字提示。比如给一个动画片段,它能自己理解场景该配什么音效,然后生成相应的声音,实现真正的音画同步。
目前官方公布的演示和论文中主要展示的是英文提示词的效果。虽然它基于大语言模型架构,理论上可以理解多种语言,但具体支不支持中文,支持效果怎么样,还得等产品正式发布后才能确认。
VideoPoet生成的视频在动作流畅度和一致性上表现很出色,但画质分辨率方面还有提升空间。研究团队也在持续优化这个问题。毕竟是第一代技术,后续版本肯定会越来越好。
不能,VideoPoet是专门用来生成视频的AI工具,不是做PPT的。它的专长是把文字、图片变成动态影像,做演示文稿得用专门的办公软件。
作为谷歌出品的产品,VideoPoet在安全性和内容审核上肯定会有一套严格的机制。不过目前还在研究阶段,具体的安全措施还没有详细披露。谷歌会在模型训练时就加入内容过滤,防止生成不当视频。
| 分享笔记 (共有 篇笔记) |