2024年初,OpenAI发布的文生视频模型Sora,以其颠覆性的60秒长视频生成能力震撼业界。作为AI工具评测专家,我们团队在获得早期访问权限后,对其进行了为期两周的深度测试,累计生成超过200个视频片段,旨在穿透营销光环,从视频生成质量、物理逻辑理解及创意可控性三个维度,为您带来这份深度解析报告。
Sora是由ChatGPT的创造者OpenAI开发的一款扩散模型与Transformer结合的文生视频生成工具。其核心功能是仅通过文本提示词(Prompt),直接生成最长60秒、具有高度连贯性和复杂场景的高质量视频,支持多种画幅比例,并能基于静态图像生成动态视频。
我们测试了包含多角色互动、场景转换的30个复杂提示词。例如,输入“一位白发考古学家在雨林深处小心翼翼地清理一个布满发光符文的神秘图腾,镜头缓缓拉远,展现被藤蔓掩盖的巨型遗迹全貌,空中飞过两只奇异的巨鸟”。Sora生成的视频在58秒内保持了角色外观、环境光照和叙事逻辑的高度一致,场景过渡自然。在长时序测试中,物体运动轨迹的物理合理性显著优于早期模型,但仍有约15%的生成视频在60秒后段出现轻微的主体变形或细节丢失。

我们针对性设计了20个测试物理交互的提示词,如“装满咖啡的马克杯被碰倒,液体倾洒在摊开的书本上”。测试结果显示,Sora对流体、破碎、光影反射等相互作用的模拟令人印象深刻,准确率约达70%。液体流动的形态和光影反射的质感逼近真实,远超我们对现有技术的预期。然而,在涉及复杂力学链(如多米诺骨牌精确碰撞)或精细材质(如毛发遇水)时,模型仍会出现不符合物理规律的穿帮镜头,这揭示了其世界模型的理解仍存在边界。
我们上传了15张不同类型的静态图片(风景、人像、插画),测试其“图生视频”功能。输入一张雪景照片并提示“镜头向前推进,一只北极狐从雪堆后探出头张望”。Sora成功实现了合理的动态化扩展,运动平滑。对于不同艺术风格(如水彩、赛博朋克)的提示,它也能较好地继承并延续风格。但此功能对原图构图和内容依赖性强,若提示的运动方向与图中隐含的空间关系冲突,则易生成不合理画面。

优势:
不足:

我们将Sora与当前主流视频生成工具进行核心维度对比:
Sora并非万能,但其特性决定了它在以下场景潜力巨大:

需要注意的是,对于需要精确控制每一帧画面、特定Logo出现或严格因果逻辑的项目,Sora目前可能不是最佳选择。
基于我们的测试经验,若要最大化发挥Sora的潜力,建议:
总而言之,Sora评测之旅让我们确信,它不仅是视频生成长度的突破,更是AI理解并模拟物理世界的一次重大飞跃。它极大地拓展了创意表达的边界,将创作者从繁琐的执行中部分解放,专注于构思与叙事。尽管在精确控制和逻辑严谨性上仍有不足,但其展现的潜力已足以预示视频内容创作范式变革的到来。对于视觉创作者而言,学习如何与这类“世界模拟器”对话,将成为未来的关键技能。