详情介绍
Phenaki是谷歌于2022年10月发布的文本转视频模型,旨在解决传统视频生成中长度限制和连贯性不足的难题。它通过创新的因果视觉视频变换器(C-ViViT) 架构,将视频压缩为离散标记,并结合双向掩码Transformer生成动态画面,从而实现从文本到视频的端到端合成。与其他视频生成工具相比,Phenaki更注重故事情节的完整性和时间维度上的灵活性,用户输入“宇航员在火星漫步→跳舞→遛狗→观看烟花”等多段提示词,模型即可生成无缝衔接的连续视频。
二、官网入口地址
-
备注:目前Phenaki仍处于研究阶段,未全面开放公众使用。用户可通过官网查看技术文档和演示案例。
三、下载与使用方式
Phenaki无需下载客户端,仅支持网页端访问。用户需通过官方页面提交申请或参与测试。具体使用流程如下:
-
输入文本提示:提供一段描述性文字(支持多语言,如英语、中文等);
-
设置参数(可选):指定视频长度、初始帧或风格参考;
-
生成与导出:模型自动生成视频,输出为可下载的MP4或FBX格式文件。
四、核心功能详解
-
文本到长视频生成
-
支持基于故事线的多段文本输入,生成最长2分钟的连贯视频;
-
示例:输入“泰迪熊潜水→浮出水面→走上沙滩→篝火旁行走”,模型自动分镜并合成完整剧情。
-
-
因果视频编码(C-ViViT)
-
通过时空压缩技术将视频转化为离散标记,突破固定长度限制,实现任意时长视频生成;
-
结合掩码Transformer(MaskGIT)并行预测视频标记,提升生成效率。
-
-
多模态数据训练
-
联合训练图像-文本对(如LAION-400M)和视频-文本数据,增强模型泛化能力;
-
支持艺术风格转换(如卡通、铅笔画、未来主义等)。
-
-
初始帧控制
-
可上传静态图片作为初始帧,结合文本提示生成动态内容(如“白猫打哈欠”触发对应动作)。
-
五、应用场景
-
教育行业:快速生成科普动画或历史场景还原视频,辅助可视化教学;
-
广告营销:根据产品描述自动制作创意广告片,降低拍摄成本;
-
娱乐创作:为短视频平台、游戏或影视制作提供分镜预演或概念视频;
-
虚拟现实:结合VR技术生成沉浸式动态环境,提升用户体验。
六、定价与开放状态
-
当前状态:未商业化,仅限研究用途。谷歌暂未公布公开发布计划或定价策略;
-
替代方案:开发者可参考开源实现(如GitHub的Phenaki PyTorch版本)进行实验。
Phenaki常见问题
Phenaki由谷歌旗下研究团队开发,是专注于文本到视频生成的AI模型。
官方演示页面为 https://phenaki.video/ 研究详情可访问https://phenaki.research.google/
Phenaki是一款通过文本描述直接生成视频的AI工具。用户输入一段故事性文字(如“外星飞船抵达未来城市”),它能自动创建连贯且动态适配的视频片段,最长支持几分钟时长。
使用流程分为三步:在官网输入文本提示(支持多语言);选择是否上传初始图片或设置风格;点击生成并下载结果视频。目前需通过官方申请权限。
目前免费,但仅开放给部分测试用户。因伦理考虑,谷歌未全面发布该模型。
视频连贯性和故事性表现优秀,但分辨率暂未达到影视级标准。生成的角色动作自然,但细节模糊。
核心特色是长视频生成和动态剧情适配。输入多段文本后,它能自动处理场景过渡,如从“海洋”切换到“城市”而无突兀感。
支持英语、中文、西班牙语等多种语言,模型通过预训练T5编码器理解文本语义。
目前不可商用。谷歌因训练数据潜在偏见和滥用风险,限制商业用途。
| 分享笔记 (共有 篇笔记) |