2024 年,由清华大学团队孵化、生数科技(ShengShu Technology)推出的国产视频大模型 Vidu 正式亮相,迅速在全球 AI 视频生成领域掀起波澜。作为对标 Sora 的先行者,Vidu 定位为“一站式高保真视频生成引擎”,旨在解决当前视频生成中时长短、物理规律混乱及角色一致性差等痛点。其发布不仅标志着中国在多模态大模型领域的重大突破,更意味着全球视频生成竞赛进入了“秒级响应、电影级画质”的新阶段,为内容创作者提供了前所未有的生产力工具。
Vidu 的核心竞争力在于其独创的 U-ViT 架构,这是全球首个将 Transformer 与扩散模型优势深度融合的视频生成架构。相比前代模型及竞品,Vidu 实现了三大维度的跨越式提升:
>
>
用户只需输入一段自然语言描述(如“一只穿着宇航服的猫在火星表面漫步,夕阳西下”),Vidu 即可自动生成符合语义的高清视频。其强大的语义理解能力确保了动作逻辑的连贯性,即使是复杂的运镜指令也能精准执行。

上传一张静态图片,指定首帧或尾帧,Vidu 能让画面“动”起来。该功能特别适用于老照片修复动态化、电商商品展示及艺术创作。模型能智能识别图中的主体与背景,生成自然的动态效果,如让静止的水流流动、让人物眨眼微笑。
针对短视频创作中角色忽变的问题,Vidu 引入了先进的角色锁定技术。在不同场景、不同动作的生成任务中,它能确保同一角色的面部特征、服饰细节保持高度统一,为制作系列短剧提供了坚实的技术底座。

Vidu 的应用边界正在快速拓展。对于影视从业者,它是预可视化(Pre-viz)的神器,可快速生成分镜脚本;对于广告营销人员,能低成本批量产出高质量的商品宣传短片;对于教育行业,可将抽象的历史事件或科学原理转化为生动的动态演示。此外,游戏开发者也可利用其快速生成资产素材,极大缩短开发周期。
目前,用户可以通过访问生数科技官网或关注其官方微信公众号申请内测资格。注册登录后,界面简洁直观:

>
>
新手常见问题主要集中在提示词编写上,建议遵循“主体 + 动作 + 环境 + 光影风格”的结构,避免过于抽象的描述。
随着 Vidu 技术的不断迭代,未来我们有望看到其对音频生成的原生支持,实现真正的“音画同步”。生数科技计划进一步开放 API 接口,赋能更多第三方应用。可以预见,Vidu 将推动视频创作从“专业门槛”走向“全民普及”,重塑数字内容的生产范式,让每个人都能成为自己故事的导演。
已是最新文章