VideoPoet：谷歌大模型一键生成10秒连贯视频-代码号

Name: VideoPoet
Author: 原创

VideoPoet

用户：原创发布日期：2026-02-26 已有人查阅

VideoPoet是谷歌研究团队开发的一款创新的AI视频生成模型，它采用大语言模型架构，能够将文本、图像等输入直接转换为高质量视频。不同于市面上的扩散模型，VideoPoet通过统一的Transformer框架实现文本到视频、图像到视频、视频风格化、视频编辑和视频到音频等多种功能，一次生成最长10秒的连贯动作视频，为视频创作带来全新。

VideoPoet是谷歌研究院在2023年12月发布的一款视频生成大模型，它的出现打破了扩散模型在视频生成领域的主导地位。这款模型的核心创新在于采用了解码器-only的Transformer架构，将视频生成任务统一在大语言模型的框架下解决。

VideoPoet的工作原理实很有意思，它先用MAGVIT-v2视频分词器把图像和视频转换成离散的代码序列，再用SoundStream音频分词器处理音频，这样就把视觉和听觉信息都变成了模型能理解的"语言"。然后，这个大语言模型就像写文章一样，一个接一个地预测接下来应该出现什么画面和声音，最终组合成完整的视频。

最让人印象深刻的是，VideoPoet生成的视频动作连贯自然，不像很多视频生成模型那样只能产生小幅变化。它还能生成长达10秒的视频，并且通过重复预测机制，理论上可以实现任意时长的视频生成。谷歌团队甚至用VideoPoet制作了一部关于旅行浣熊的短片，把多个AI生成的片段拼接在一起，讲述了一个完整的故事。

官网入口地址： https://sites.research.google/videopoet/

下载地址：
截至2024年初，VideoPoet仍以研究形式存在，尚未对公众开放使用。官网主要是展示研究成果和示例视频的页面，暂不提供下载或在线体验服务。

功能介绍：

文本到视频生成： 输入文字描述，VideoPoet就能生成对应内容的视频。比如输入"宇航员骑着奔驰的马"，它就能把这个场景活灵活现地展现出来，而且动作幅度大、连贯自然。
图像到视频动画： 给一张静态图片，再配上文字提示，VideoPoet就能让图片动起来。比如给一张船的图片，输入"的海面上航行的船"，模型就能生成动态的海上航行画面。
视频风格化： 这个功能可以把普通视频转换成不同的艺术风格，比如逼真风格、数字艺术、铅笔艺术、水墨风格、双重曝光等等。你可以让一段普通视频变成动画片效果，或者呈现出油画般的质感。
视频编辑与扩展： VideoPoet支持视频修复和扩展功能，可以修改视频中的局部内容，或者向外扩展画面边界。它还支持视频帧延续，让视频变得更长更完整。
视频到音频生成： 更厉害的是，VideoPoet还能根据视频内容自动生成匹配的音频，而且不需要任何文字指导。它直接从视频画面中理解应该配什么声音，然后生成相应的音效或背景音乐。
长视频生成： 通过自回归方式扩展内容，VideoPoet一次能生成10秒的连贯视频。如果对一秒的视频进行调节，再预测下一秒，反复循环就能生成更长的视频，而且能忠实保留所有对象的外观。
精确控制运镜： 用户可以在文本提示中添加想要的运镜方式，比如"拉远"、"向左平移"、"弧型运动镜头"、"无人机航拍"等，VideoPoet能够精确理解并执行这些拍摄手法的指令。
交互式视频编辑： 对于已经生成的视频片段，用户可以通过改变文本描述来调整对象的运动方式。比如让跳舞的浣熊从跳机器人舞变成跳Griddy舞，实现高度灵活的视频控制。

应用场景：

影视制作与动画创作： 电影制作人和动画师可以用VideoPoet快速生成样片片段，探索不同的视觉风格和叙事，大大提升前期创意阶段的效率。
广告与营销内容生产： 营销人员输入产品描述和创意概念，就能快速生成多条广告视频素材，测试不同风格的传播效果。
短视频与社交媒体内容： VideoPoet支持方形和竖屏格式，非常适合TikTok、YouTube Shorts等短视频平台的内容创作。
教育科普视频制作： 教育工作者可以把抽象概念转化成生动的视频内容，比如让历史场景重现、让科学原理可视化，提升教学吸引力。
虚拟现实与游戏开发： 游戏和VR内容创作者可以用VideoPoet快速生成环境动画和角色动作，丰富虚拟世界的表现力。

必要信息：
定价与可用性： 目前VideoPoet仍处于研究阶段，尚未正式向公众开放，也没有公布具体的定价方案。据谷歌研究团队透露，当前模型受限于算力成本，暂不具备大规模商用可行性，同时生成的视频分辨率也有待进一步提升。不过，这项技术的意义在于证明了语言模型在视频生成领域的巨大潜力，为未来视频创作工具的进化指明了方向。