MuseTalk：腾讯开源的实时AI唇形同步工具，让视频人物“声”动起来-代码号

Name: MuseTalk
Author: 原创

MuseTalk

用户：原创发布日期：2026-02-27 已有人查阅

MuseTalk是一款由腾讯团队开发的实时、高质量音频驱动唇形同步模型。它能够根据输入的语音，自动调整视频中人物的口型，实现声音与嘴唇动作的精准匹配。该模型支持中文、英文、日文等多种语言，可在NVIDIA V100 GPU上实现30fps以上的实时推理，为数字人生成、视频配音等应用提供了高效、开源的解决方案。

MuseTalk是一个专注于视频人物口型生成的AI工具，核心技术是在潜在空间中通过深度学习模型融合音频与视觉特征。你提供一个包含人物面部的视频和一段音频，MuseTalk就能分析音频中的发音，并逐帧修改原视频中人物的嘴部区域，生成一段口型与音频同步的新视频。它并非从零生成整个视频，而是专注于嘴部区域的精准重绘，因此能程度保留原视频的面部表情、背景和画质。该项目由腾讯音乐娱乐天琴实验室开发并开源，推动数字人内容创作技术的发展。

官网入口地址

MuseTalk的官方代码和模型托管在GitHub上，入口地址为： https://github.com/TMElyralab/MuseTalk

下载地址

MuseTalk没有提供一个可以直接下载的软件安装包，用户需要通过Git克隆代码仓库，并下载预训练模型权重来使用。

代码下载：在命令行执行 git clone https://github.com/TMElyralab/MuseTalk.git
模型下载：项目提供了自动下载脚本，进入项目目录后运行 sh download_weights.sh （Linux/Mac）或 download_weights.bat （Windows）即可。手动下载可前往Hugging Face等平台。

功能介绍

MuseTalk作为一个专业的唇形同步工具，拥有一系列强大的技术特点和灵活的功能配置：

音频-视觉精准同步：这是MuseTalk的核心功能。它基于深度学习，特别是通过将音频特征（由Whisper模型提取）和视觉特征（由VAE编码）在潜在空间中进行多尺度融合，能精确分析音频中的音素，并驱动对应口型的变化，实现高度同步的效果。
实时推理能力：MuseTalk在设计上兼顾了效果与速度。在NVIDIA Tesla V100这样的专业显卡上，它可以处理256x256分辨率的面部区域，达到每秒30帧以上的处理速度，满足直播等实时交互场景的需求。
多语言支持：由于底层使用的音频特征提取模型具有泛化能力，MuseTalk天然支持多种语言。目前测试和应用中已验证了对中文、英文、日文的良好支持，理论上可以适用于绝大多数语言的音频输入。
身份与视觉保真度：MuseTalk采用“修补”思路，只修改视频中人物的嘴部区域，而不是重新生成整个面部。这种方式限度地保留了原视频中人物的面部特征、表情、肤色、光照以及背景细节，确保生成视频的身份一致性和视觉真实感。
灵活的推理模式：项目提供了多种使用方式。用户可以通过inference.sh脚本进行标准的视频文件推理，也有realtime_inference.py脚本用于实时流式处理。还内置了Gradio WebUI界面（通过app.py启动），让用户可以更直观地拖拽文件、调节参数。
关键参数调节：WebUI和脚本中都提供了一个重要的可调参数bbox_shift。这个参数用于微调嘴部区域检测框的位置，正值可以使嘴巴看起来张开得更大一些，负值则相反。用户可以根据生成效果的实际情况进行微调，以获得最自然的口型。
与他工具协同工作：MuseTalk常与视频生成模型MuseV配合使用，形成一个完整的“数字人”工作流。先用MuseV根据一张照片生成人物讲话的视频，再用MuseTalk替换音频并精修口型，从而创造出由AI生成的数字人。

应用场景

MuseTalk的开源和高性能特性使在多个领域都有广阔的应用前景：

虚拟数字人生成：结合MuseV等工具，快速创建用于新闻播报、直播带货、品牌代言的高保真虚拟人，大大降低了视频内容的制作成本和时间。
视频翻译与配音：将一部影片的语言翻译成另一种语言后，使用MuseTalk自动调整演员的口型，使与新的配音匹配，制作出高质量的本地化版本。
影视内容制作与编辑：在后期制作中，如果需要修改某句台词，无需重新拍摄，只需让演员补录音频，然后用MuseTalk即可自动生成修改后的口型画面。
在线教育：制作语言教学课程时，可以让人物的口型清晰地展示发音方式，帮助学习者更好地模仿和学习。
社交媒体内容创作：用户可以为静态照片、绘画作品甚至现有视频加上全新的配音，创作有趣的娱乐视频，丰富互动体验。

必要信息补充

定价：MuseTalk本身是一个免费且开源的项目。任何人都可以免费从GitHub仓库下载代码、模型并根据许可证规定使用。用户只需承担自己运行所需的算力成本（如自有GPU服务器或云GPU租赁费用）。
硬件要求：官方推荐使用NVIDIA GPU进行推理，建议显存至少4GB。虽然V100能实现实时性能，但消费级显卡如RTX 3050 Ti（4GB）在fp16精度下也能运行，只是生成速度会慢一些。训练则需要更高的显存和算力。
生态合作：MuseTalk的代码和模型在Hugging Face等AI社区平台也可获取，方便开发者集成到自己的应用中。一些云服务平台也提供了预置好MuseTalk环境的镜像，用户可以一键部署使用。