详情介绍
如果你刷短视频时看到那些真人跳舞突然变成动漫角色的作品,十有就是用Diffutoon这类工具做的。这个由阿里巴巴和华东师范大学的研究团队在2024年初推出的开源项目,正在改变视频风格化的游戏规则。
Diffutoon的诞生源于一个技术挑战:现有的视频风格化工具要么效果生硬像套滤镜,要么处理长视频时画面闪个不停,更别提支持高分辨率输出了。研究团队把问题拆解成四个子任务——风格化、一致性增强、结构引导、着色,然后给每个子问题设计专门的解决方案,再把它们组装成一个完整的处理流水线。
这套方案的技术含量相当高。风格化部分用了在动漫数据集上微调的Stable Diffusion模型;一致性增强集成了AnimateDiff的运动模块,还搞了个“滑动窗口”机制,让AnimateDiff原本只能处理32帧的限制被打破,可以处理任意长度的视频;结构引导用的是ControlNet,但特别强调“轮廓优先”,因为动漫风格更依赖清晰的人物边缘而非深度信息;着色环节更绝,直接用了超分辨率任务的ControlNet,一边上色一边把分辨率从512x512拉升到1536x1536。
最牛的是那个“编辑分支”设计。你想让视频里的人物衣服换个颜色?不用重新拍,也不用复杂的后期,直接在提示词里写“橙色裙子”,Diffutoon就能在保持人物姿势、动作不变的前提下,把颜色精准改掉。这背后是用深度估计加软边缘双ControlNet锁定结构,再用文本引导生成彩色信号,和主流水线融合实现的。
性能表现也很能打。在官方公布的对比测试中,Diffutoon在美学质量、结构保留、时序一致性等指标上都超过了Rerender-a-video、DomoAI、Gen-1等开源和闭源工具。处理速度方面,通过集成Flash Attention,GPU内存占用降低了40%以上。
现在Diffutoon的代码已经在GitHub上开源,你可以选择在Google Colab上一键运行,不需本地部署,也可以自己搭建服务器实现批量处理。
官网入口地址
项目官方页面:https://ecnu-cilab.github.io/DiffutoonProjectPage/
下载地址
Diffutoon的代码托管在ModelScope社区,GitHub仓库地址:https://github.com/modelscope/DiffSynth-Studio
如果你只是想快速体验,官方提供了Google Colab笔记本,点开就能用,不用下载任何东西。
功能介绍
1. 高质量动漫风格转换
Diffutoon的核心功能是把真人视频转换成各种动漫风格。它不像那些简单的滤镜工具,而是真正“重绘”每一帧,保持人物结构稳定的同时,赋予画面日式动漫、美式卡通等不同美学风格。
2. 高分辨率输出
支持高达1536x1536的分辨率输出,远超一般视频风格化工具的512x512限制。这意味着转换后的视频可以直接用于专业制作,不用担心画质损失。
3. 时序一致性增强
视频风格化的坑就是“闪烁”——相邻帧风格不统一,看起来像坏掉的霓虹灯。Diffutoon通过集成AnimateDiff运动模块和自研的滑动窗口机制,确保长视频从头到尾风格稳定、播放流畅。
4. 结构引导保留
使用ControlNet专门处理轮廓信息,能精准保留原视频的人物姿势、物体形状、动作轨迹。跳舞视频转换后,舞蹈动作不变;运动场景转换后,球员跑位依然准确。
5. 智能编辑功能
这是Diffutoon的一大亮点。通过编辑分支,你可以用文字提示词修改视频内容——比如“把裙子改成红色”“背景换成星空”“给人物加上猫耳朵”。修改后的内容会与原视频结构融合,看不出后期痕迹。
6. 自动着色与超分辨率一体化
专门设计的着色ControlNet同时完成两件事:给黑白轮廓填上合适的颜色,以及把低分辨率输入拉升到高清输出。即使你上传的是老旧的480p视频,也能生成1080p以上的动漫作品。
7. 低分辨率优化
对画质不好的输入视频特别友好。很多工具对低分辨率视频束手无策,转换出来糊成一团,Diffutoon却能通过超分能力“抢救”画质。
8. 多平台运行支持
提供Google Colab一键运行方案,新手无需配置任何环境就能用。同时支持本地部署和服务器部署,满足专业用户的批量处理需求。
应用场景
-
短视频内容创作:抖音、B站、小红书的创作者可以用Diffutoon快速产出动漫风格作品。真人跳舞转二次元、生活Vlog变动漫日常,这类内容在平台上的互动数据普遍不错。
-
动画制作辅助:动画工作室可以用Diffutoon处理实拍参考视频,快速生成动画风格的原画素材,或者用编辑功能快速迭代角色设计。
-
游戏开发素材:游戏开发者可以把实拍的动作捕捉视频转换成游戏内的过场动画风格,节省美术资源。
-
广告营销:品牌可以制作动漫风格的广告视频,用更具亲和力的二次元形象触达年轻用户。
-
教育和培训:将教学视频转换成动漫风格,增加趣味性和吸引力,特别适合儿童教育内容。
-
个人娱乐:把自己的生活视频、宠物视频转成动漫风格,发朋友圈或留作纪念,简单好玩。
定价模式
Diffutoon是开源项目,代码和模型都免费提供。你可以选择:
-
免费:在Google Colab上运行,只需一个谷歌账号
-
本地免费部署:自己搭建环境,需要一定的技术基础
-
服务器部署:如果想批量处理或用于商业项目,可以租用云服务器自行部署,成本取决于服务器配置
Diffutoon常见问题
Diffutoon由阿里巴巴达摩院和华东师范大学联合研发。来自华东师大的段钟杰和来自阿里巴巴的王呈宇、陈岑、钱卫宁、黄俊等研究者共同完成了这项成果。
官方项目页面在https://ecnu-cilab.github.io/DiffutoonProjectPage/ 代码托管在GitHub上,地址是https://github.com/modelscope/DiffSynth-Studio 论文可以在arXiv上下载,编号是2401.16224。
简单说,Diffutoon是一个能把普通真人视频自动转成高质量动漫风格的开源AI工具。它不是简单的滤镜,而是真正重绘每一帧画面,保留原视频的人物动作、姿势的同时,赋予它日式动漫那种扁平化、风格化的视觉效果。还能根据文字提示修改视频内容,比如换衣服颜色、改背景。
有三种方式。第一种最简单,去Google Colab打开官方提供的笔记本,上传视频,点运行按钮,等几分钟就能下载结果,全程不用装任何软件。第二种是自己电脑上部署,需要Python环境和NVIDIA显卡,按GitHub上的教程一步步来。第三种是搭建服务器,适合需要批量处理的专业用户。
免费。这是个开源项目,代码和模型都公开,任何人都可以免费。无论是在Colab上在线跑,还是自己部署,都不需要付费。
从技术上说,这是一个学术研究项目,代码开源,你可以自己检查有没有问题。使用时需要注意:如果你在Colab上跑,视频会上传到谷歌的服务器处理,敏感内容不要用。本地部署的话数据在自己手里,安全性自己掌控。
第一,输入视频分辨率不要太低,虽然它支持低分辨率优化,但源文件质量好效果肯定更好。第二,想编辑内容时提示词要写清楚,比如“红色连衣裙”比“换颜色”效果好得多。第三,处理长视频时可以分段运行,避免Colab超时。第四,本地部署时推荐GTX1070以上显卡,跑起来更顺畅。
特色是“可编辑”。一般视频风格化工具只能整体转风格,Diffutoon可以让你用文字指令单独修改视频里的某个元素,比如“把人物的黑头发改成金发”,而且修改后和原视频动作匹配。另一个特色是高分辨率输出,1536x1536在同类工具里属于顶尖水平。还有就是对低分辨率视频的优化能力,老视频也能救。
如果你用Google Colab处理,视频会上传到谷歌的服务器,数据安全取决于谷歌的隐私政策。如果你自己本地部署,所有处理都在自己的电脑上完成,数据不离开本地,安全性由自己掌控。商业项目建议用本地部署。
对于想尝鲜的人来说,Colab一键运行太方便了,点几下鼠标就能出片。对于技术人员,代码质量不错,文档也算详细。效果方面,用户普遍反映比普通滤镜自然很多,画面不闪,人物稳定。但对电脑配置有要求,本地部署的话显卡差了跑不动。
不能。Diffutoon是专门的视频风格化工具,只能处理视频文件,和PPT生成不搭边。
它不是从零生成视频,而是把已有的真实视频转换成动漫风格。输入必须有源视频,它负责“转换”而不是“创造”。
Google Colab版本受运行环境限制,处理太长的视频会超时断开。官方推荐分片段处理。本地部署的话理论上没有长度限制,但显存和内存够不够会影响实际能处理的长度。官方论文展示的是处理长视频的能力,通过滑动窗口机制解决了这个问题。
| 分享笔记 (共有 篇笔记) |