详情介绍
在AI视频生成这个科技巨头竞相角逐的赛道上,一家成立仅两年多的我国公司——生数科技,正凭借深厚的技术底蕴脱颖而出。
生数科技的故事始于清华大学人工智能研究院。2023年3月,由清华AI研究院副院长朱军教授领衔,一群在深度生成式算法领域深耕多年的顶尖研究者走出校园,联合来自阿里、腾讯、字节等科技公司的业界精英,共同创立了生数科技。他们的目标很明确:打造世界领先的、能够融合文本、图像、视频、3D等多模态信息的可控多模态通用大模型。
生数科技的“根技术”实力雄厚。团队在国际上较早提出了基于Transformer架构的U-ViT扩散模型融合框架,并开源了首个基于此框架的多模态模型UniDiffuser,实现了高质量的图文联合生成。这些底层创新为后续的视频大模型Vidu的诞生奠定了坚实基础。
2024年,生数科技发布了里程碑式的产品——Vidu视频大模型。这不仅是“我国首个”长时长、高一致性、高动态性的视频大模型,更在技术上实现了对国际主流模型的追赶与局部超越。Vidu能够根据一段简单的文字描述,生成长达16秒、分辨率达到1080P的视频内容。它具备出色的“一致性”和“动态性”,生成的视频中,角色、场景和物体的运动连贯自然,不会出现扭曲或“崩坏”。
凭借强大的技术实力和广阔的应用前景,生数科技获得了资本市场的青睐,已完成数亿元的Pre-A轮融资,投资方包括蚂蚁集团、百度风投、启明创投等知名机构。这家源自清华的AI新星,正致力于让AI成为提升人类创造力与生产力的强大引擎。
官网入口地址
生数科技及核心产品Vidu的官方信息可以通过以下官网了解:
-
公司官网:https://www.shengshu-ai.com (可了解公司、技术、产品和合作信息)
下载地址
生数科技的核心模型Vidu目前主要通过官网的云端服务提供,无需下载安装模型本身。用户可以直接访问官网进行在线体验和创作。对于寻求企业级合作或API集成的客户,可以通过官网的联系方式与生数科技进行商务接洽。
功能介绍
生数科技以Vidu视频大模型为核心,构建了一套面向多模态内容生成的功能体系:
-
文生视频:这是Vidu最核心的功能。用户只需在输入框中用文字描述一段想象的画面,“一只穿着宇航服的猫在火星上散步,背景是巨大的地球”,Vidu就能在几十秒内自动生成一段符合描述、流畅且高清晰度的视频。这极大地降低了视频创作的门槛。
-
图生视频:用户也可以上传一张静态图片作为起点,并辅以文字描述希望发生的动态变化,Vidu能将这张图片“动起来”,生成延续图片内容和风格的视频。上传一张风景照,并输入“云朵缓缓飘过,湖面泛起涟漪”。
-
参考生视频:这是Vidu的一项特色功能,解决视频生成中角色或场景不连贯的痛点。用户可以上传一张或多张目标角色、物体或场景的参考图,模型将在生成的整个视频中,确保这些核心元素的外观保持一致,这对于制作系列动画、品牌广告等场景至关重要。
-
AI+行业应用解决方案:生数科技并非只提供单一的工具,而是致力于将多模态能力深度融入垂直行业,为不同领域提供定制化的解决方案:
-
互动娱乐:赋能动漫和游戏,生成角色、场景和剧情短片,打造沉浸式互动体验。
-
广告营销:帮助品牌快速、低成本地生成多版本、多风格的创意广告视频,提升营销效率和效果。
-
影视动漫:辅助创作者进行概念预览、分镜设计、背景生成甚至部分片段制作,加速影视内容的生产流程。
-
文旅:为博物馆、文化景区生动还原历史场景、演绎文化故事,助力传统文化以数字化形式传承和传播。
-
更多探索:持续拓展AI在游戏、教育、设计等领域的应用边界。
-
应用场景
生数科技的技术,尤是Vidu,正在为众多依赖视觉内容创作的行业带来变革:
-
影视与动画制作:导演和动画师可以用Vidu快速生成分镜头脚本或概念预览视频,直观地预览创意效果,从而降低前期沟通和试错成本。在后期,也可用于生成特定场景或高效元素。
-
广告与营销:营销人员可以根据不同的产品卖点和受众,用文字快速生成多个版本的短视频广告,进行A/B测试,快速找到有效的创意方向,大幅提升广告生产效率。
-
游戏开发:游戏设计师可以用Vidu生成角色动画、场景宣传片、剧情过场动画,甚至为开放世界游戏动态生成部分环境内容,丰富游戏世界。
-
自媒体与内容创作:B站UP主、抖音博主、视频创作者可以利用Vidu,在没有拍摄条件或素材的情况下,将脑海中的创意直接转化为视频素材,极大地拓展了内容创作的想象空间。
-
教育与科普:教师和科普工作者可以将抽象的概念、历史事件、科学原理,通过Vidu生成为生动的教学视频,提升学习者的兴趣和理解深度。
必要补充信息
-
核心产品体验:Vidu已面向公众开放体验,用户可以直接访问生数科技官网,通过在线平台尝试文生视频和图生视频功能,感受AI视频生成的魅力。
-
定价:关于Vidu的具体定价模式,官网未直接显示统一标价。会提供面向个人创作者的免费体验额度或积分套餐,以及面向企业客户的API调用付费和定制化解决方案报价。建议有需求的用户直接访问官网或联系客服获取价格信息。
-
技术团队:核心创始团队来自清华大学人工智能研究院,师从我国计算机学会“青竹奖”得主朱军教授,团队在深度生成式模型,特别是扩散概率模型领域拥有世界级的研发能力和深厚的学术积累。
-
开源贡献:生数科技在成立之初就秉承开源精神,开源了基于U-ViT框架的UniDiffuser模型,为多模态AI社区做出了重要贡献,这也体现了技术自信和推动行业发展的愿景。
-
融资情况:公司在成立一年内即完成了近亿元人民币的天使轮融资和数亿元人民币的Pre-A轮融资,投资方包括蚂蚁集团、百度风投、启明创投等顶级机构,为长期研发和市场拓展提供了充足的资金保障。
生数科技常见问题
生数科技本身就是一家独立的AI公司,不是某个大公司的子业务。它由清华大学人工智能研究院的核心团队于2023年3月创立,专注于多模态大模型的研发。
你可以直接访问生数科技的官网 shengshu-ai.com,在网站上应该能找到“体验Vidu”或类似的产品入口,通过网页就可以在线使用它的文生视频和图生视频功能,不需要下载任何软件。
Vidu是我国第一个长时长、高一致性的视频大模型。简单说,它是一个能根据你写的文字或者上传的图片,自动生成最长16秒、1080P高清视频的AI工具。它最厉害的地方是能保证视频里的角色和场景从头到尾都长得一样,不会变形。
用起来很方便。你打开Vidu的网页,在输入框里用文字描述你想看的画面,比如“一只金毛犬在沙滩上追飞盘,夕阳下”,然后点击生成,等几十秒到一两分钟,一个视频就出来了。你也可以先上传一张参考图,让AI把这张图“变活”。
目前提供免费体验额度,让新用户尝试生成视频。如果你有大量创作需求,需要购买积分套餐或者订阅会员,具体价格需要去官网查看的会员规则。
生数科技作为正规公司,对内容安全非常重视。他们的模型在训练时做了对齐,并且生成的内容会经过审核机制,确保不违反法律法规和公序良俗。不过,作为一项还在快速发展的技术,生成的视频有时会有小瑕疵,需要你多尝试几次。
有的。想让生成的角色前后一致,一定要多用“参考生视频”功能,上传一张清晰的正面照作为参考。描述画面时,多用具体的形容词,比如“戴着红色贝雷帽的短发女孩”,比只说“一个女孩”效果好。如果对某段视频不满意,可以微调文字描述再次生成。
特色是“长时长和高一致性”。很多模型只能生成4-5秒,且角色容易“崩坏”,而Vidu能稳定生成16秒,且通过“参考生视频”功能,能让同一个角色在不同画面里始终保持一致,这对于讲故事、做连续动画来说,非常关键。
关于数据隐私,生数科技作为正规公司,官网会有详细的隐私政策。平台会遵循法规保护用户数据。但如果你有非常敏感的素材,建议在使用任何AI工具前都仔细阅读隐私条款,或者避免上传。
速度还是不错的。情况下,生成一个16秒的1080P视频,大约需要几十秒到一两分钟,这取决于当前服务器的繁忙程度。这个速度对于创意工作流来说,已经非常高效了,可以快速验证各种不同的想法。
Vidu目前专注于视频生成,还不能直接生成PPT文件。不过,你可以用它为你的PPT生成惊艳的演示视频素材。比如你有一页讲“公司未来愿景”,可以用Vidu生成一个展现未来城市或产品概念的动态背景视频插入PPT,瞬间提升档次。
目前还不能。虽然它很强大,但生成16秒的独立片段和制作一部完整叙事电影之间,还有很大的距离。不过,它可以作为电影制作的“加速器”,帮助导演快速生成概念预览、分镜、高效元素或背景素材,大幅降低前期制作成本。
在文本描述方面,虽然没有严格的字数限制,但建议用简洁、清晰的描述,太复杂的描述模型难以准确理解。在视频时长方面,目前Vidu公开支持生成最长16秒的视频片段。对于超过16秒的长视频,你可以通过多次生成、后期剪辑拼接的方式来实现。
| 分享笔记 (共有 篇笔记) |