Phenaki是一款通过文本描述直接生成视频的AI工具。用户输入一段故事性文字（如“外星飞船抵达未来城市”），它能自动创建连贯且动态适配的视频片段，最长支持几分钟时长。

使用流程分为三步：在官网输入文本提示（支持多语言）；选择是否上传初始图片或设置风格；点击生成并下载结果视频。目前需通过官方申请权限。

Phenaki：谷歌文本转视频AI工具，用文字生成连贯故事视频-代码号

Name: Phenaki
Author: 原创

Phenaki

用户：原创发布日期：2025-11-04 已有人查阅

Phenaki是由谷歌研究团队开发的一款AI视频生成模型，能够通过文本提示直接生成高质量、连贯的视频内容。其特点是支持根据故事性文本生成长达几分钟的视频，并实现场景间的动态过渡，大幅降低了视频制作的技术门槛和成本。

Phenaki是谷歌于2022年10月发布的文本转视频模型，旨在解决传统视频生成中长度限制和连贯性不足的难题。它通过创新的因果视觉视频变换器（C-ViViT） 架构，将视频压缩为离散标记，并结合双向掩码Transformer生成动态画面，从而实现从文本到视频的端到端合成。与其他视频生成工具相比，Phenaki更注重故事情节的完整性和时间维度上的灵活性，用户输入“宇航员在火星漫步→跳舞→遛狗→观看烟花”等多段提示词，模型即可生成无缝衔接的连续视频。

二、官网入口地址

官方网站：https://phenaki.video/
研究页面：https://phenaki.research.google/
备注：目前Phenaki仍处于研究阶段，未全面开放公众使用。用户可通过官网查看技术文档和演示案例。

三、下载与使用方式

Phenaki无需下载客户端，仅支持网页端访问。用户需通过官方页面提交申请或参与测试。具体使用流程如下：

输入文本提示：提供一段描述性文字（支持多语言，如英语、中文等）；
设置参数（可选）：指定视频长度、初始帧或风格参考；
生成与导出：模型自动生成视频，输出为可下载的MP4或FBX格式文件。

四、核心功能详解

文本到长视频生成
- 支持基于故事线的多段文本输入，生成最长2分钟的连贯视频；
- 示例：输入“泰迪熊潜水→浮出水面→走上沙滩→篝火旁行走”，模型自动分镜并合成完整剧情。
因果视频编码（C-ViViT）
- 通过时空压缩技术将视频转化为离散标记，突破固定长度限制，实现任意时长视频生成；
- 结合掩码Transformer（MaskGIT）并行预测视频标记，提升生成效率。
多模态数据训练
- 联合训练图像-文本对（如LAION-400M）和视频-文本数据，增强模型泛化能力；
- 支持艺术风格转换（如卡通、铅笔画、未来主义等）。
初始帧控制
- 可上传静态图片作为初始帧，结合文本提示生成动态内容（如“白猫打哈欠”触发对应动作）。