4 月 27 日,在北京举办的 2024 中关村论坛年会“未来人工智能先锋论坛”上,人工智能初创公司生数科技与清华大学联合发布了自主研制的中国首个长时长、高一致性、高动态性文生视频大模型Vidu,其总体性能完全可以媲美2个多月前 OpenAI 公司发布的文生视频大模型Sora。在工作方式上,两种大模型均是基于提示词直接而连续地生成视频;在拟真度上,都能模拟现实世界的物理规律;在画面清晰度上,同样支持最高1080P;在内容上,都可以确保主体和背景的高一致性和高动态性。虽然Vidu产生的16秒的生成视频时长明显短于Sora的输出结果(最长60秒),但Vidu却能更好地理解中国元素(例如熊猫、龙等)并能生成栩栩如生的视频,彰显了它的“中国特色”。
值得一提的是,在大模型的工作底层逻辑上,Vidu依据的是融合了Diffusion模型和Transformer的U-ViT架构,这一架构由生数科技创始成员于2022年9月提出,比Sora的底层架构DiT提出时间还要早3个月。当时,Vidu团队成员就在千万至数亿参数量级范围内验证了U-ViT架构具有极强的可扩展性,因此这项工作后来在国际计算机视觉领域的顶级会议CVPR 2023上被正式发表。可以说,正是生数科技团队具备深厚的理论基础和实践经验,拥有突破文生视频大模型主流框架的技术难点和瓶颈的科技攻关实力,他们才能在成立一年之余的时间内推出了大模型Vidu。
不过,兴奋之余,还需要冷静地看待Vidu与Sora之间的差距。对于Vidu,除了生成的视频时长要短于Sora之外,在生成视频的画面复杂性和保真度方面还与Sora有一定的差距。但是,更应该值得我们反思的是:正如前述,在文生视频大模型研发领域,最开始的算法底层架构设计我们是走在国际前列的,但是OpenAI却面向公众更早地发布了一个更好的成果Sora。表面上看,这种“起个大早却赶了晚集”的滞后局面主要在于生数科技成立时间短,在算力资源、高质量数据、雄厚资金和研发人才等方面与OpenAI相比还缺少优势。但仔细想一下,如果我们能够在U-ViT架构提出并完成性能验证之初,及早构建文生视频大模型的创新生态链,充分发挥我国的新型举国体制优势,把政府、市场、社会等各方面力量集聚在一起,形成强大合力,将算力基础设施、高质量数据资源、模型算法研究和场景化应用统筹起来,打好关键核心技术攻坚战,形成一个良性的文生视频大模型科技创新闭环体系,那或许在文生视频的国际大舞台上“捷足先登”的就是Vidu而不是Sora啦,这将大大地鼓舞我国广大科技工作者在自己的领域实现科技自立自强。“积力之所举,则无不胜也;众智之所为,则无不成也。”
转载请标注:“内容来源:科普中国科普号赛蒙先生。”