详情介绍
在AI数字人领域,长期以来存在一个难以调和的矛盾:要么只关注嘴部同步,导致人物身体僵硬如同“面瘫”;要么能生成全身动作,但视频一长就会出现身份漂移或画面闪烁。InfiniteTalk由MeiGen-AI团队研发,它的出现正是为了破解这一困局。
这个项目的核心是一套名为“稀疏帧视频配音”的全新范式。传统技术像是在原视频上“打补丁”,只替换嘴部区域;而InfiniteTalk则是把源视频中的少数几张关键画面作为“视觉锚点”,然后像导演指导演员一样,根据新的音频脚本,重新生成包含头部转动、面部表情、肢体动作在内的完整视频。
这种技术路线的转变带来了两个直接好处:一是身份高度一致,因为有原始关键帧锚定,无论生成多长的视频,人物的长相、服饰、背景都不会走样;二是表达极度自由,模型能根据音频的节奏、情绪和重音,自主生成与之匹配的全身动态。比如当配音情绪变得激动时,数字人会自然地配合以手势幅度加大或身体前倾等动作。
基于这一范式,InfiniteTalk实现了真正的“无限时长”生成能力。它采用流式生成架构,将长视频切分成多个小片段逐一处理,并通过“上下文帧”机制确保片段之间的动作衔接流畅自然,彻底消除了分段生成的割裂感。目前该开源项目已在GitHub上获得超过1.6K星标,Hugging Face月下载量达6.5万次,受到了技术社区的广泛认可。
官网入口地址
-
在线体验平台:https://www.infinitetalk.co
-
iOS App下载:https://apps.apple.com/gb/app/infinitetalkai/id6747014221
下载地址
InfiniteTalk采用开源与商业服务并行的模式:
-
开源代码:GitHub仓库免费下载,适合开发者本地部署和二次开发
-
本地软件包:针对普通用户的一键安装包,售价9.99美元,包含完整的Windows运行环境,无需配置复杂的Python依赖
-
云端镜像:在Compshare等算力平台上有预配置的镜像,支持按小时租用GPU资源
功能介绍
无限时长视频生成
这是InfiniteTalk最核心的突破。传统音频驱动模型受限于显存和算法结构,最多只能生成几十秒的视频。InfiniteTalk通过流式生成架构,理论上支持任意长度的视频内容生成。无论是5分钟的课程讲解,还是完整的MV歌曲,都能保持从头到尾的画质稳定和动作连贯。
全身多维度同步
与市面上多数仅做唇形同步的工具不同,InfiniteTalk实现了真正的全身驱动:
-
面部微表情:不仅是嘴动,还包括眉毛挑起、眼角皱纹、微笑时脸颊的隆起
-
头部自然转动:根据语音的抑扬顿挫产生自然的点头、侧头、仰头动作
-
身体姿态语言:在情绪激昂处配合手势,在叙述时保持放松姿态
双模式输入支持
-
图像转视频:只需提供一张正面清晰的人像照片,配合音频,即可生成该人物说话的视频
-
视频转视频:上传一段原始视频(可以是无声的)和新音频,模型会将原视频中的人物口型和动作与新音频重新对齐
多角色支持
版本支持双人数字人模式,可以上传一张包含两个人的照片和两段独立的音频,生成两人对话或合唱的视频,为访谈类内容、双语教学、歌曲二重唱等场景提供了。
灵活的生成控制
用户可以通过文本提示对数字人的表现进行微调,“用兴奋的表情讲述”“说话时配合手势”“保持严肃的面部表情”等,让生成结果更符合创作意图。
应用场景
电商直播与营销
电商团队可以创建24小时在线的AI数字人主播,为不同商品录制讲解视频,甚至支持多语言版本。一张主播照片加上商品卖点脚本,就能批量生成高质量的产品演示视频。研究表明,个性化视频内容可以提升35%的销售额。
在线教育与培训
教育机构可以将讲师的照片和课程音频结合,快速生成大规模在线课程。即使是长篇的技术讲座,InfiniteTalk也能保证讲师在整个课程中的表情自然、口型精准。这对于需要快速制作多语种课程的内容出海团队尤有价值。
娱乐与短视频创作
内容创作者可以用一张角色图加上配音,制作虚拟偶像的唱歌视频、搞笑短剧、故事解说等。多角色版本甚至支持二重唱,为音乐创作打开了新的大门。
多语言内容本地化
对于已经拍摄好的视频素材,只需更换不同语言的配音,InfiniteTalk就能自动调整口型和动作,让同一个发言人“流利切换”多种语言,大大降低了视频出海的生产成本。
定价模式
InfiniteTalk根据使用方式不同,有多种定价策略:
-
开源版本:免费,适合有技术能力的开发者在本地部署
-
本地软件包:一次性付费9.99美元,买断制,包含完整的Windows一键安装程序,无需后续订阅
-
在线平台(infinitetalk.co):采用积分制,每秒视频消耗约2积分。用户注册后可获得少量免费积分,后续通过充值购买
-
WaveSpeedAI平台:按生成时长计费,480P分辨率每5秒0.15美元,720P每5秒0.30美元
-
iOS App:免费下载,应用内提供付费升级选项,如500次转换9.99美元
InfiniteTalk常见问题
InfiniteTalk是由MeiGen-AI团队研发的开源项目,背后的技术团队来自美团的基础研发平台和计算智能平台部。这个项目凝聚了他们在视觉智能领域的前沿探索成果。
想在线体验的话可以直接访问infinitetalk.co,这是官方的在线服务平台。另外wavespeed.ai平台也集成了InfiniteTalk的服务。技术爱好者可以去GitHub搜索MeiGen-AI/InfiniteTalk查看开源代码。
你可以把它理解成一个能让照片开口说话的“数字人导演”。它不是简单的唇形同步工具,而是基于一张静态照片或一段参考视频,配合音频脚本,重新生成一个口型精准、表情自然、甚至有肢体动作的完整视频。它的核心技术叫“稀疏帧视频配音”,说白了就是只参考原视频里的几张关键画面,然后让AI根据声音重新“演”一遍,所以才能做到无限时长也不走样。
实很简单,就三步。第一步,准备一张清晰正面的人像照片或者一段短视频;第二步,准备你要说的音频文件,录一段话或者一首歌都行;第三步,把这两样东西上传到平台,点一下生成,等个一两分钟,视频就做好了。如果你懂技术,也可以从GitHub下载代码在自己电脑上部署,可玩性更高。
这个问题得分两方面看。如果你是开发者,从GitHub下载开源代码自己部署,那是免费的。但如果你是普通用户想在线使用,平台会收取一定的算力费用,比如infinitetalk.co是按生成的视频时长消耗积分,每秒大概2积分,新用户会送一些体验额度。另外也有一次性买断的本地软件包,9.99美元,适合想在自己电脑上无限生成的朋友。
从官方公布的隐私政策来看,他们采取了行业标准的安全措施来保护用户数据,不会你的个人信息。而且有个很好的选择是,如果你特别在意隐私,可以使用他们的本地软件包,那个版本在你自己的电脑上运行,断网都能用,照片和音频数据根本不会离开你的电脑。不过无论用哪个版本,都建议你上传前先看看平台的隐私条款。
实际效果挺让人惊喜的,尤是相比传统的只动嘴的工具。因为它驱动的不只是嘴型,连眉毛、肩膀、手势都会跟着声音的情绪走。比如你上传一段激昂的演讲音频,生成的人物会配合着手势、身体前倾,看起来很有代入感。当然视频质量也和你上传的照片清晰度、音频质量有关,正面高清照片加上干净的人声,效果。
它不能直接把PPT文档转成视频,但是可以用一种很巧妙的方式来辅助做PPT讲解。你可以先做好PPT,然后对着每一页PPT的内容录制讲解音频。接着,上传一张你自己的照片或者虚拟形象照片,把录好的音频传上去,InfiniteTalk就会生成一个你在“讲课”的视频。把这个视频嵌入到PPT里或者直接和PPT录屏剪辑在一起,效果比干巴巴的旁白生动多了。
这个特别适合想做虚拟偶像或者音乐翻唱的朋友。操作和生成说话视频一样,你只需要上传一张人物照片,然后上传一首歌的音频文件(MP3格式就行),点生成就可以了。模型会自动识别歌曲的节奏和情感,让人物的口型对上歌词,甚至会有一些配合歌曲情绪的微表情和头部晃动。版本还支持双人合唱,上传一张有两个人的照片和两段音频,就能生成两人对唱的视频。
理论上核心技术确实支持无限时长,但在实际在线平台上,考虑到服务器负载和用户体验,一般会设一个上限。比如infinitetalk.co单次生成最长支持10分钟,有的平台限制在3分钟。如果你需要生成更长的视频,比如一小时的课程,可以分多次生成,或者购买本地软件包在自己电脑上运行,那个版本就没有平台强制的时长限制了。
特色就是“全身动起来”和“无限长”。现在市面上很多数字人工具还停留在“面部动画”阶段,人物除了嘴在动,他地方都是僵的。InfiniteTalk能根据语音的韵律同步生成全身动作,这是它最核心的差异化优势。另外它的“身份保持”能力也很强,因为用了稀疏帧锚定技术,就算生成半小时的视频,人物的长相和衣服细节都不会变,不会出现生成到后面变了个人的情况。
官方隐私政策里说明了,上传的内容会用于服务改进和模型训练,但会进行匿名化处理,移除所有个人身份标识。如果你对此比较介意,建议优先考虑本地部署版本,那个版本离线运行,数据100%掌握在自己手里。另外无论用哪个版本,建议不要上传包含敏感隐私信息的照片。
| 分享笔记 (共有 篇笔记) |