功能介绍
评论列表

详情介绍

LivePortrait是快手可灵大模型团队在AI肖像动画领域的一个开源力作。它的核心任务非常直观:给定一张源肖像图片(Source Image)和一个驱动视频(Driving Video),模型能将驱动视频里人物的表情和头部姿态,地“复刻”到源图片的人物上,生成一段与驱动视频同步的新视频。

为了实现高效、精准的驱动,LivePortrait采用了一套创新的技术架构:

  • 隐式关键点框架:它不直接检测显式的面部关键点(如眼角、嘴角),而是学习一种更紧凑、表达能力更强的隐式关键点表示。这种方法能有效捕捉面部的细微表情和复杂的运动模式,平衡了计算效率与动画的可控性。

  • 缝合与重定向模块:这是提升可控性的关键设计。特别是针对眼睛和嘴巴这两个最富表现力的部位,LivePortrait内置了轻量级的重定向模块(基于小型MLP多层感知器),允许用户独立、精细地控制注视方向、眨眼频率以及嘴唇的开合动作,甚至可以实现微表情的精确同步。

  • 混合图像-视频训练策略:模型在约6900万帧的高质量数据上进行了训练,结合了图像和视频数据,使得它不仅能从视频中学习动态,也能从海量图像中学习更丰富、更清晰的面部细节,从而提升了生成画面的质量和泛化能力。

  • 高效的生成能力:得益于精心设计的网络架构,LivePortrait的生成速度非常快。在NVIDIA RTX 4090显卡上,可以达到每秒12.8帧的处理速度,基本满足实时交互的需求。

官网入口地址:

项目官方主页:https://liveportrait.github.io/ (注:该页面为项目介绍页,非实际使用平台)

下载地址:

功能介绍:

LivePortrait围绕“让静态肖像动起来”这一核心,提供了一系列强大且可控的功能。

  1. 表情与姿态迁移:这是核心功能。它能将驱动视频中人物的各种表情(微笑、皱眉、惊讶)和头部运动(转头、点头、倾斜)迁移到目标人像上,生成自然流畅的动画。

  2. 精确的面部控制

    • 眼部重定向:可以单独控制动画角色的注视方向(如看左、看右)和眨眼动作,让眼神交流更真实。

    • 嘴部重定向:能够精确同步嘴唇动作,尤适用于结合语音生成说话视频,确保口型与声音匹配。

  3. 多风格肖像支持:它不仅支持真实人像照片,还广泛应用于油画、雕塑、动漫角色、3D渲染图等多种风格的艺术作品,极大地拓展了创作边界。

  4. 多人肖像处理:模型具备一定的能力处理并拼接多个人物的肖像,实现更复杂的动画场景。

  5. 高性能生成:优化的网络结构和推理流程,使在高性能GPU上能实现接近实时的生成速度,并且支持生成高分辨率的动画视频。

  6. 本地部署与在线体验:提供了完整的本地部署方案(支持Windows/Linux),开发者可以自由修改和集成;同时也提供了Hugging Face在线空间,供普通用户免费快速体验。

应用场景:

  1. 内容创作与社交媒体:创作者可以制作趣味性的“说话照片”视频,让历史人物画像开口讲话,或为自己的照片添加生动的表情,用于短视频平台分享。

  2. 数字人生成:这是最核心的应用之一。结合语音合成技术,仅需一张照片和一段音频,即可快速生成用于新闻播报、产品介绍、在线教育课程的数字人讲师视频,大幅降低视频制作成本。

  3. 游戏与动画制作:游戏开发者可以用它快速为角色原型生成表情动画,动画师也可以用它辅助制作关键帧,提高前期预览和草稿制作的效率。

  4. 虚拟直播:将LivePortrait与实时渲染和面部捕捉技术结合,可以实现低成本的虚拟主播形象驱动,让静态的虚拟形象拥有丰富的实时表情。

  5. 影视高效辅助:在电影后期制作中,可用于辅助进行人脸替换、表情重定向等视觉高效工作。

定价与应用示例:

  • 定价:LivePortrait是一个开源免费的项目,代码和模型权重在MIT许可证下发布,允许免费用于商业和非商业目的。但依赖的某些组件(如InsightFace)有额外的使用限制。对于没有本地GPU资源的用户,可以通过Hugging Face的官方空间免费在线体验,也有一些云GPU平台提供了付费的一键部署镜像。

  • 应用示例:一位历史老师想要制作一个关于爱因斯坦讲解相对论的趣味短视频。他只需准备一张爱因斯坦的正面照片,然后自己录制一段讲解物理概念的短视频作为驱动视频。使用LivePortrait,软件会自动将老师说话时的表情和头部动作迁移到爱因斯坦的照片上,生成一段爱因斯坦“亲自”讲课的动画,整个过程只需几分钟。

LivePortrait常见问题

本文标签