功能介绍
评论列表

详情介绍

AnchorCrafter是一款专门面向电商和广告领域的AI视频生成工具,解决传统带货视频制作成本高、周期长的问题。该系统的核心技术在于对人-物交互的精细建模与生成。它不仅需要生成逼真的人物和商品,更要让人物的动作与商品的位置、形态契合,虚拟主播能自然地从桌上拿起一瓶饮料并展示包装。

为了实现这一目标,AnchorCrafter在扩散模型的基础上引入了多项创新技术,包括HOI外观感知、HOI动作注入以及HOI区域重加权损失。这些技术共同作用,使得模型能够从多个参考图像中学习商品的外观细节,并将与人物特定的动作轨迹相结合,最终生成人物与商品交互自然、动作流畅连贯的高质量视频。目前该项目已公开发布技术报告和项目主页,相关代码也已在GitHub上开源。

官网入口地址

AnchorCrafter的官方项目主页用于展示技术原理、示例视频和引用方式,可通过以下网址访问:
项目主页:https://cangcz.github.io/Anchor-Crafter/

下载地址

AnchorCrafter是一个开源项目,代码和模型权重需要从指定的代码仓库下载:
GitHub源代码仓库:https://github.com/cangcz/AnchorCrafter 用户可以在此获取代码、安装说明以及后续发布的预训练模型权重。

功能介绍

AnchorCrafter的核心功能是生成特定场景下的交互视频,功能深度聚焦于人-物交互的精确控制与高保真生成。

  1. 高保真人-物交互视频生成:这是AnchorCrafter最核心的功能。它能够根据输入的人物图像或视频、商品的多视角图片,生成一段虚拟主播与商品进行自然交互的视频。生成的主播可以自然地拿起一个杯子、展示一件衣服的细节,人物手部与物体的接触关系、物体的运动轨迹都力求真实自然。

  2. HOI外观感知与分离:系统能够智能地从多张商品参考图中提取外观特征,如形状、颜色、纹理等,并在生成视频时将这些特征与人物外观特征有效分离和融合。这确保了无论商品如何运动,品牌标识和关键细节都能被清晰、准确地保留下来。

  3. HOI动作注入与控制:AnchorCrafter允许用户通过某种方式(如提供动作草图、轨迹或示例视频)来控制虚拟主播与商品的交互动作。HOI动作注入技术克服了交互过程中物体轨迹规划和人物手部遮挡等难题,使得像“握住并旋转”、“拿起并展示”这类复杂动作的生成成为。

  4. HOI区域精细化学习:为了进一步提升交互区域的生成质量,AnchorCrafter设计了专门的损失函数,在训练过程中对人物与物体交互的区域(如手部和物体接触的部分)赋予更高的学习权重。这使得模型能够更加关注这些细节区域,从而生成手部形变更准确、物体纹理更清晰的视频。

  5. 基于扩散模型的潜在空间生成:系统采用扩散模型作为基础架构,利用变分自编码器将视频帧压缩到潜在空间,然后在这个空间中进行去噪和生成。这种方式在保证生成质量的同时,也提升了计算效率,使得在现有硬件条件下生成短视频成为。

应用场景

AnchorCrafter的技术特性使在多个商业和创意领域具有明确的应用价值:

  • 电商直播与带货视频制作:商家只需提供商品图和选择主播形象,即可快速生成大量展示不同商品、具有不同话术风格的带货短视频,用于店铺商品详情页、社交媒体推广或信息流广告,极大提升内容更新效率和转化率。

  • 商品广告创意与A/B测试:营销人员可以利用该系统快速生成多个版本的广告视频,测试不同的产品展示方式、主播风格和交互动作,从而找到的广告创意,优化广告投放效果。

  • 虚拟数字人内容生产:为虚拟偶像、虚拟客服等数字人提供生成与实物产品互动内容的能力,丰富数字人的应用场景和内容形式,虚拟博主开箱评测、虚拟导购介绍产品功能等。

  • 在线教育与产品演示:用于制作需要展示实物操作的教学视频或产品使用指南。,演示一款厨具的使用方法,或讲解一个机械模型的工作原理,让教学内容更直观生动。

必要补充介绍

  • 定价:AnchorCrafter是一个开源免费的模型。用户可以免费下载代码和模型权重进行本地部署、学术研究或个人非商业项目使用。目前官方项目主页主要提供技术展示,尚未提及商业化API或在线付费服务。

  • 开发者与团队:由我国科学院和腾讯公司联合推出,相关研究论文和技术的作者来自上述机构。

  • 应用示例与局限性:项目主页展示了多个生成视频示例,虚拟主播拿起饮料瓶、展示玩具等。作为一项前沿技术,生成的视频时长目前有限(在几秒到十几秒),对于极复杂的交互(如多个物体同时互动)或极长的视频生成,效果和稳定性仍有提升空间。用户的使用体验也依赖于本地硬件的算力水平。

AnchorCrafter常见问题

本文标签