美国时间2024年10月15日,人工智能研究公司OpenAI正式宣布,其文生视频模型Sora取得重大突破,单次生成视频的时长上限已从原先的20秒大幅提升至60秒。此举标志着AI视频生成技术在连贯性与复杂性上迈入了新阶段。
根据OpenAI在其官方技术博客发布的更新声明,此次Sora的升级主要围绕时长、一致性与物理模拟三大维度。

“延长生成时长不仅仅是增加帧数。它要求模型对叙事、物理世界和时间的因果关系有更深层次的理解。这是我们向构建能够理解和模拟动态世界模型迈出的关键一步。”OpenAI在声明中如此阐述此次更新的意义。
Sora于2024年2月首次亮相,凭借其根据文本提示生成逼真、富有想象力视频的能力,迅速成为AI视频生成领域的标杆。此前,该领域的主要参与者包括Runway、Stability AI(推出Stable Video Diffusion)以及谷歌、Meta等科技巨头,但各家产品在视频时长、分辨率和物理合理性上均存在局限。

行业普遍认为,视频生成是继大型语言模型和文生图之后,AI竞争的下一个关键战场。延长生成时长是解锁影视制作、游戏开发、广告营销等专业场景应用的前提。OpenAI此次更新,无疑在技术指标上确立了新的领先优势。

Sora能力的跃升预计将对多个领域产生连锁反应:

尽管取得进展,Sora及同类技术距离大规模商业化应用仍有距离。专家指出,未来发展的关键看点在于:

首先,是可控性与精确性的进一步提升。如何让AI精确理解“镜头语言”和复杂动作序列,仍是巨大挑战。其次,算力成本是普及的门槛,生成一分钟高清视频所需的计算资源目前仍非常高昂。最后,版权与伦理框架的建立将与技术发展同步成为焦点,行业需要就训练数据来源、生成内容归属建立共识与规范。
无论如何,OpenAI此次更新为AI视频生成领域树立了新的技术里程碑。它不仅展示了AI理解并生成动态世界的潜力,也预示着一段由“秒级”迈向“分钟级”、从技术演示走向实际应用的新竞赛已正式鸣枪。