功能介绍
评论列表

详情介绍

想象一下,家里一张泛黄的老照片,突然开口讲述当年的故事;或者,你只需要录制一段音频,就能快速生成一个在镜头前侃侃而谈的虚拟主播。SadTalker就是实现这一切的AI神器。它的名字源于核心原理“从音频驱动的单幅图像生成说话头部的3D运动系数”(Stabilizing Audio-driven Talking head generation via motion coefficients)。

这个由西安电子科技大学、腾讯AI Lab等机构的研究者共同开发的算法,于2023年初正式开源。它通过创新的ExpNet和PoseVAE模块,分别从音频中分离并生成面部的精确表情变化和自然的头部姿态。这使得生成的视频不仅嘴巴能对上,眉毛、眼睛等面部微表情以及头部的轻微晃动都显得十分逼真,克服了以往技术中面部呆板或表情生硬的问题。目前,该项目在GitHub上已获得超过1.2万颗星,成为数字人生成领域热门的开源项目之一。

官网入口地址:

下载地址:

  • 代码下载:在GitHub项目主页的“Code”按钮处,可以选择git clone或者直接下载ZIP压缩包。

  • 预训练模型下载:官方提供了一个脚本 scripts/download_models.sh 来自动下载所有必需的模型文件,你也可以按照文档指引手动下载。

功能介绍:

SadTalker的功能虽然聚焦,但在“让照片说话”这个垂直领域做得相当深入和全面。

  • 核心功能:音频驱动的逼真动画生成:这是最主要的功能。输入一张包含清晰人脸的图片和一段语音或歌曲音频,模型会分析音频中的音调和节奏,计算出对应的面部运动参数,驱动图片中的人物开口“说话”或“唱歌”,并自动生成与声音匹配的唇形、面部表情和自然的头部运动。

  • 三种生成模式

    • 静态模式:默认模式,适用于绝大多数标准正面或略带角度的人像照片。

    • 参考视频模式:你可以提供一个参考视频,SadTalker会学习该视频中人物的说话风格和头部运动习惯,应用到你的照片上,让生成的人物更接近你想要的特定神态。

    • 缩放模式:生成视频时,画面会自动进行小幅度的推拉缩放,增加视频的动态感和镜头感。

  • 面部增强处理:内置了GFPGAN等面部修复模型,可以显著提升生成视频中人物面部的清晰度和细节,减少模糊感,让输出画质更好。

  • 背景分离与替换:支持将生成的人物从原始背景中分离出来,方便后期替换成你想要的任何背景图或视频场景。

  • 批量视频处理:你可以准备多张图片和多个音频文件,让SadTalker批量生成视频,提高生产效率。

应用场景:

  • 数字人内容创作:B站Up主、短视频创作者可以用它快速生成“说书人”或“虚拟主播”的视频,只需录制旁白即可。

  • 教育与培训:制作历史人物(如孔子、爱因斯坦)讲解知识的趣味教学视频,让学习更生动。

  • 博物馆与文旅:让展品或历史人物的照片在展厅屏幕里“活过来”,为游客进行讲解,提升互动体验。

  • 个性化沟通:用家人的照片生成一个生日祝福视频,或者制作一个会说话的电子相册。

  • 影视与游戏预演:在前期制作中,快速生成角色对话的视觉预览。

定价与主要信息:

SadTalker是一款免费的开源软件,遵循Apache 2.0许可证。这意味着你可以免费、修改、甚至用于商业用途。但请注意,使用过程中应当遵守相关法律法规,不得用于制作虚假信息、诈骗或侵犯他人肖像权。如果你不想本地部署,也可以通过Hugging Face或Google Colab的在线演示空间免费体验核心功能。

SadTalker常见问题

本文标签