功能介绍
评论列表

详情介绍

Phenaki是谷歌于2022年10月发布的文本转视频模型,旨在解决传统视频生成中长度限制和连贯性不足的难题。它通过创新的因果视觉视频变换器(C-ViViT) 架构,将视频压缩为离散标记,并结合双向掩码Transformer生成动态画面,从而实现从文本到视频的端到端合成。与其他视频生成工具相比,Phenaki更注重故事情节的完整性时间维度上的灵活性,用户输入“宇航员在火星漫步→跳舞→遛狗→观看烟花”等多段提示词,模型即可生成无缝衔接的连续视频。

二、官网入口地址

三、下载与使用方式

Phenaki无需下载客户端,仅支持网页端访问。用户需通过官方页面提交申请或参与测试。具体使用流程如下:

  1. 输入文本提示:提供一段描述性文字(支持多语言,如英语、中文等);

  2. 设置参数(可选):指定视频长度、初始帧或风格参考;

  3. 生成与导出:模型自动生成视频,输出为可下载的MP4或FBX格式文件。

四、核心功能详解

  1. 文本到长视频生成

    • 支持基于故事线的多段文本输入,生成最长2分钟的连贯视频;

    • 示例:输入“泰迪熊潜水→浮出水面→走上沙滩→篝火旁行走”,模型自动分镜并合成完整剧情。

  2. 因果视频编码(C-ViViT)

    • 通过时空压缩技术将视频转化为离散标记,突破固定长度限制,实现任意时长视频生成;

    • 结合掩码Transformer(MaskGIT)并行预测视频标记,提升生成效率。

  3. 多模态数据训练

    • 联合训练图像-文本对(如LAION-400M)和视频-文本数据,增强模型泛化能力;

    • 支持艺术风格转换(如卡通、铅笔画、未来主义等)。

  4. 初始帧控制

    • 可上传静态图片作为初始帧,结合文本提示生成动态内容(如“白猫打哈欠”触发对应动作)。

五、应用场景

  • 教育行业:快速生成科普动画或历史场景还原视频,辅助可视化教学;

  • 广告营销:根据产品描述自动制作创意广告片,降低拍摄成本;

  • 娱乐创作:为短视频平台、游戏或影视制作提供分镜预演或概念视频;

  • 虚拟现实:结合VR技术生成沉浸式动态环境,提升用户体验。

六、定价与开放状态

  • 当前状态:未商业化,仅限研究用途。谷歌暂未公布公开发布计划或定价策略;

  • 替代方案:开发者可参考开源实现(如GitHub的Phenaki PyTorch版本)进行实验。

Phenaki常见问题

本文标签