详情介绍
LivePortrait是快手可灵大模型团队在AI肖像动画领域的一个开源力作。它的核心任务非常直观:给定一张源肖像图片(Source Image)和一个驱动视频(Driving Video),模型能将驱动视频里人物的表情和头部姿态,地“复刻”到源图片的人物上,生成一段与驱动视频同步的新视频。
为了实现高效、精准的驱动,LivePortrait采用了一套创新的技术架构:
-
隐式关键点框架:它不直接检测显式的面部关键点(如眼角、嘴角),而是学习一种更紧凑、表达能力更强的隐式关键点表示。这种方法能有效捕捉面部的细微表情和复杂的运动模式,平衡了计算效率与动画的可控性。
-
缝合与重定向模块:这是提升可控性的关键设计。特别是针对眼睛和嘴巴这两个最富表现力的部位,LivePortrait内置了轻量级的重定向模块(基于小型MLP多层感知器),允许用户独立、精细地控制注视方向、眨眼频率以及嘴唇的开合动作,甚至可以实现微表情的精确同步。
-
混合图像-视频训练策略:模型在约6900万帧的高质量数据上进行了训练,结合了图像和视频数据,使得它不仅能从视频中学习动态,也能从海量图像中学习更丰富、更清晰的面部细节,从而提升了生成画面的质量和泛化能力。
-
高效的生成能力:得益于精心设计的网络架构,LivePortrait的生成速度非常快。在NVIDIA RTX 4090显卡上,可以达到每秒12.8帧的处理速度,基本满足实时交互的需求。
官网入口地址:
项目官方主页:https://liveportrait.github.io/ (注:该页面为项目介绍页,非实际使用平台)
下载地址:
-
GitHub开源仓库:https://github.com/KwaiVGI/LivePortrait (获取源代码和部署教程)
-
Hugging Face在线体验:https://huggingface.co/spaces/KwaiVGI/LivePortrait (官方提供的免费在线Demo)
-
预训练模型权重:可通过GitHub仓库指引,从Hugging Face或百度网盘等渠道下载。
功能介绍:
LivePortrait围绕“让静态肖像动起来”这一核心,提供了一系列强大且可控的功能。
-
表情与姿态迁移:这是核心功能。它能将驱动视频中人物的各种表情(微笑、皱眉、惊讶)和头部运动(转头、点头、倾斜)迁移到目标人像上,生成自然流畅的动画。
-
精确的面部控制:
-
眼部重定向:可以单独控制动画角色的注视方向(如看左、看右)和眨眼动作,让眼神交流更真实。
-
嘴部重定向:能够精确同步嘴唇动作,尤适用于结合语音生成说话视频,确保口型与声音匹配。
-
-
多风格肖像支持:它不仅支持真实人像照片,还广泛应用于油画、雕塑、动漫角色、3D渲染图等多种风格的艺术作品,极大地拓展了创作边界。
-
多人肖像处理:模型具备一定的能力处理并拼接多个人物的肖像,实现更复杂的动画场景。
-
高性能生成:优化的网络结构和推理流程,使在高性能GPU上能实现接近实时的生成速度,并且支持生成高分辨率的动画视频。
-
本地部署与在线体验:提供了完整的本地部署方案(支持Windows/Linux),开发者可以自由修改和集成;同时也提供了Hugging Face在线空间,供普通用户免费快速体验。
应用场景:
-
内容创作与社交媒体:创作者可以制作趣味性的“说话照片”视频,让历史人物画像开口讲话,或为自己的照片添加生动的表情,用于短视频平台分享。
-
数字人生成:这是最核心的应用之一。结合语音合成技术,仅需一张照片和一段音频,即可快速生成用于新闻播报、产品介绍、在线教育课程的数字人讲师视频,大幅降低视频制作成本。
-
游戏与动画制作:游戏开发者可以用它快速为角色原型生成表情动画,动画师也可以用它辅助制作关键帧,提高前期预览和草稿制作的效率。
-
虚拟直播:将LivePortrait与实时渲染和面部捕捉技术结合,可以实现低成本的虚拟主播形象驱动,让静态的虚拟形象拥有丰富的实时表情。
-
影视高效辅助:在电影后期制作中,可用于辅助进行人脸替换、表情重定向等视觉高效工作。
定价与应用示例:
-
定价:LivePortrait是一个开源免费的项目,代码和模型权重在MIT许可证下发布,允许免费用于商业和非商业目的。但依赖的某些组件(如InsightFace)有额外的使用限制。对于没有本地GPU资源的用户,可以通过Hugging Face的官方空间免费在线体验,也有一些云GPU平台提供了付费的一键部署镜像。
-
应用示例:一位历史老师想要制作一个关于爱因斯坦讲解相对论的趣味短视频。他只需准备一张爱因斯坦的正面照片,然后自己录制一段讲解物理概念的短视频作为驱动视频。使用LivePortrait,软件会自动将老师说话时的表情和头部动作迁移到爱因斯坦的照片上,生成一段爱因斯坦“亲自”讲课的动画,整个过程只需几分钟。
LivePortrait常见问题
它是由快手科技(Kuaishou)与我国科学技术大学、复旦大学联合开发的开源项目 。这是国内顶尖科技企业与高校在AI前沿领域深度合作的成果。
虽然没有一个长期的“官网版”在线工具,但官方在Hugging Face上提供了免费在线体验空间。你可以直接访问这个链接来使用:https://huggingface.co/spaces/KwaiVGI/LivePortrait 项目的官方介绍主页是 https://liveportrait.github.io/ 那里有详细的论文和项目说明。
你可以把它理解为一个让静态照片动起来的“表情迁移”神器。它就像给一张普通照片装上了“表情开关”,通过参考一段视频里的人物表情和动作,就能让照片里的人做出一样的表情,比如跟着视频里的人一起说话、微笑、转头,效果非常逼真。
使用方式很灵活。最简单的就是去Hugging Face的在线Demo上传你的照片和驱动视频,点一下按钮就能生成。如果你是技术爱好者,可以去GitHub下载代码,按照教程在你自己电脑上部署运行,这样功能更全,也适合批量处理。
LivePortrait本身是开源且免费的。你从GitHub下载的代码和模型可以免费用于各种用途。官方的Hugging Face在线体验空间也是免费的。不过,如果你在第三方云平台上使用别人打包好的一键运行镜像,那平台方会收取一些GPU算力费用。
工具本身是安全的,但使用时有几点需要注意。要遵守相关法律法规,不要用它制作他人的虚假视频用于非法目的。它的开源协议是MIT,相对宽松,但它依赖的一些底层库(比如人脸识别模型InsightFace)有自己的非商业使用限制,如果你要做商业产品,仔细看一下这些依赖库的许可证。
当然有。源照片是正面、清晰、光线均匀的,这样细节更丰富。驱动视频的第一帧是中性表情,且视频中人物的头部大小、角度尽量和源照片接近,这样迁移效果更自然 。在本地部署时,你可以通过调整眼睛和嘴巴的“重定向模块”参数,精细控制表情的强度,让动画更符合你的预期。
它的两大绝活是“精细控制”和“多风格兼容”。一方面,它能单独控制眼睛的注视方向和嘴巴的开合程度,甚至能精确同步口型,这对制作会说话的虚拟人特别重要 。另一方面,它不仅能让真人的照片动起来,处理油画、漫画、雕塑等艺术形象的效果也非常棒,给艺术创作带来了无限。
这个需要你留意。虽然官方Hugging Face空间是可信的,但原则上,任何在线服务都意味着你的文件会被上传到对方的服务器上处理。如果你处理的是非常隐私或敏感的照片,建议还是采用本地部署的方式,在你自己电脑上运行,这样文件不离开你的设备,数据安全由你自己掌控。
从社区的反响来看,非常好用,可以说是目前开源界效果的肖像动画工具之一。它的优势在于生成速度快、表情自然、控制精细。特别是对于数字人视频创作者来说,它大大降低了制作成本,只需要一张照片就能生成高质量的数字人视频,比传统的建模加动捕方式简单太多了。
LivePortrait本身不直接生成PPT,但它可以成为你制作PPT的“素材生成器”。比如,你需要在一个关于“艺术史”的PPT里展示“蒙娜丽莎活过来了”,就可以用LivePortrait先生成一段她微笑、说话的动画视频,然后把这个视频插入到你的PPT页面里,效果会非常惊艳。
它不能凭空生成一段完整的视频,但它是生成视频的核心“引擎”。你可以用LivePortrait来生成视频中“人物表演”的部分。比如,你写了一个剧本,需要一位数字人老师来讲解,你可以用自己的照片,配合配音音频,用LivePortrait生成老师讲课的视频片段,再用视频剪辑软件把这些片段和背景音乐、字幕组合成完整的视频作品。
LivePortrait不是一个对话模型,所以不存在“对话长度”的概念。它的处理单位是“视频”。它一次能生成的视频长度,主要受你输入的“驱动视频”长度限制,以及你电脑硬件(尤是显存)的大小。理论上,你可以用一段很长的视频作为驱动,但生成时间会相应变长,也需要更多的存储空间。
| 分享笔记 (共有 篇笔记) |