详情介绍
在数字内容爆发式增长的今天,如何低成本、高效率地生成逼真的虚拟人视频,成为创作者们关注的焦点。AniPortrait 的出现,恰好解决了这一痛点。这个由腾讯游戏智迹团队研发的开源框架,能够在短短几分钟内,将一张普通的肖像照片转化为与音频同步的动态视频。
AniPortrait 的核心技术分为两个阶段:是“音频到2D面部标记点”模块,它从输入的音频中提取语音特征,生成对应的面部表情和头部姿态的3D网格信息;是“2D面部标记点到视频”模块,利用强大的扩散模型和运动模块,将这些面部特征转化为高分辨率、时间连贯的逼真动画。整个过程不仅实现了口型的精准对齐,还能捕捉到眨眼、挑眉等细微表情变化。
值得一提的是,AniPortrait 还支持“面部重现”功能,即可以将一段源视频中的人物表情和动作,迁移到另一张肖像照片上,实现“换脸”级别的动画效果。项目开源,支持本地部署,用户可以根据自己的硬件条件自由调整生成参数,真正做到了技术平权。
官网入口地址:
https://github.com/Zejun-Yang/AniPortrait
下载地址:
项目代码托管在GitHub上,克隆地址为:https://github.com/Zejun-Yang/AniPortrait.git。你可以通过Git命令下载完整项目,也可以直接下载ZIP压缩包。预训练模型权重需要单独下载并放置在 pretrained_weights/ 目录下。
功能介绍:
AniPortrait 的功能设计围绕“让人像动起来”这一核心目标展开,主要包含以下三大核心功能:
-
音频驱动的动画生成:这是项目的王牌功能。用户只需提供一张清晰的人像照片(是正面照)和一段音频文件(可以是语音、歌声或任何声音),系统就能自动分析音频中的节奏、音调和情感,生成与之匹配的面部动画。无论是说话时的口型变化,还是唱歌时的情绪表达,都能得到精准还原。
-
面部重现功能:通过
vid2vid.py脚本实现,这项功能允许用户用一个视频来驱动另一张静态照片。你可以录制自己说话的短视频,然后用它来驱动一张历史人物的照片,实现“跨时空对话”。系统会提取源视频中的面部动作和表情,迁移到目标人像上。 -
头部姿态控制:用户可以通过调整配置文件或提供姿态模板,控制生成视频中人物的头部运动。比如设置点头、摇头或自然的头部摆动,让动画看起来更加真实自然,避免“僵尸脸”般的僵硬感。
-
高分辨率输出:结合 Stable Diffusion 1.5 等预训练模型,AniPortrait 能够生成高清晰度、细节丰富的动态影像,人物皮肤纹理、头发细节都能得到较好保留。
-
灵活的模型配置:项目支持多种预训练模型的组合,用户可以根据自己的硬件配置和效果需求,调整模型权重和参数,在生成速度和质量之间找到平衡点。
应用场景:
AniPortrait 的轻量级和高品质特性,使在多个领域都有广阔的应用空间:
-
短视频内容创作:创作者可以快速生成“照片说话”类短视频,用于社交媒体互动、历史人物科普或趣味内容制作,制作时间从传统方法的数小时缩短到10分钟以内。
-
虚拟偶像与直播:为虚拟形象赋予生动的表情和口型,让虚拟主播、虚拟偶像在直播中能与观众进行更自然的互动。
-
语言教学与口型演示:在语言学习应用中,用教材插图配合标准发音音频,生成口型动画,帮助学习者更直观地掌握发音技巧。
-
影视前期预览:导演和动画师可以用静态概念图快速生成动态小样,预览角色表情和动作,辅助创作决策。
-
数字遗产与家庭纪念:让家人的老照片“活起来”,配合他们生前的录音,创造有温度的纪念视频。
补充信息:
-
定价:AniPortrait 项目本身是免费且开源的,遵循开源许可证。用户可以在本地无限次使用,无需支付任何费用。但如果通过 Hugging Face 的在线演示使用,由于是共享计算资源,会有使用时长和次数限制。
-
在线体验:官方在 Hugging Face 提供了在线演示地址:https://huggingface.co/spaces/ZJYang/AniPortrait_official 用户可以在上传照片和音频,快速体验效果,但受限于平台资源,生成视频最长只能到3秒。
-
社区生态:目前已有开发者将 AniPortrait 集成到 ComfyUI 等流行 AI 绘画工具中,形成了插件版本,进一步降低了使用门槛。
AniPortrait常见问题
AniPortrait 是由腾讯游戏智迹团队(Tencent Games Zhiji)研发并开源的。根据论文信息,参与研发的还包括腾讯公司的他部门,这是一个来自腾讯内部多个团队合作的成果。
有的。官方在 Hugging Face 上提供了在线演示空间,地址是 https://huggingface.co/spaces/ZJYang/AniPortrait_official 你可以直接上传照片和音频在线生成视频,不过因为服务器资源有限,生成的视频长度会被限制在大约3秒钟。
你可以把它理解成一个“让照片开口说话”的AI魔法工具。你给它一张人脸照片,再给它一段你说话或唱歌的录音,它就能让照片里的人物按照你的录音动起来,口型、表情都能对上,就像照片活了一样。
有两种用法。如果你只是想体验一下,去 Hugging Face 的在线演示页面,上传照片和音频,点一下按钮就行,非常简单。如果你是专业用户或开发者,可以从 GitHub 下载代码在本地部署,通过命令行或者 ComfyUI 插件来使用,能生成更长的视频,自由度也更高。
项目本身是开源的,免费,可以放心使用。你可以在自己的电脑上随便玩,不用花一分钱。但如果你用的是 Hugging Face 的在线演示,那是别人提供的免费公共服务,会有排队或时长限制。
在线演示不行,最多只能生成3秒。但如果你把项目代码下载到自己的电脑上本地部署,就没有这个限制了。只要你的电脑显卡够好(显存足够),理论上可以生成任意长度的视频,做5分钟甚至更长的视频都没问题。
如果你是在自己电脑上本地运行,所有数据处理都在你的电脑里完成,不上传任何东西,所以非常安全,不用担心隐私泄露。但如果使用在线演示,照片和音频会上传到 Hugging Face 的服务器,建议不要上传敏感或私密的个人照片。
还有个很酷的功能叫“面部重现”。你可以录一段自己挤眉弄眼的视频,然后用这段视频去驱动另一张照片,让那张照片里的人做出和你一模一样的表情和动作。比如让蒙娜丽莎对你眨眼,或者让历史人物跟着你做鬼脸。
从技术评测和用户反馈来看,效果相当不错。它的口型准确度很高,表情也比较自然,尤对开源工具来说,已经达到了很高的水准。虽然还比不上一些大厂不公开的“黑科技”,但考虑到它免费开源,绝对是良心之作了。
这要看你想生成多长的视频。如果只是生成几秒钟的短视频,中等配置的显卡(比如 NVIDIA 1060 以上)基本能跑。但如果想生成长视频,对显存和算力要求会比较高。好消息是,项目支持调整参数,你可以根据自己的硬件条件在视频质量和生成速度之间做取舍。
| 分享笔记 (共有 篇笔记) |