互联网资讯 / 人工智能 · 2024年3月8日

AI竞争升级:全新视频生成模型引发产业变革

AI 领域再次迎来突破性进展,相关话题在全球科技圈持续发酵。

回顾2023年初,因推出了一个全新的对话式模型而引发广泛关注。与早期简单的对话机器人不同,该模型不仅能回答用户提问、承认回答错误、拒绝不当请求,还具备创作诗歌、编程、写作论文等多样能力。

在发布后不久,市场对其潜力给予高度评价,用户增速惊人,母公司也因此获得大规模资本投入。

到了2024年,类似的故事再次被放大并延续。2月16日凌晨,某技术公司在生成式人工智能领域推出一款新型模型,旨在直接输出高质量的视频内容。

官方演示显示,新模型能够根据文本指令输出包含多个角色、多场景及多种拍摄角度的视频。这与一年前的AI生成视频相比,在长度和画质方面均实现显著提升。

据了解,该模型在文本输入下可输出最长60秒的高清视频,且画面精细程度远超行业部分产品的预期水平。

这意味着,继文本和静态图像之后,生成式 AI 的能力进一步扩展到视频领域。

业内人士对其评价普遍积极,认为AI驱动的人类创作正进入“增强型人机协作”的阶段。

该模型究竟有哪些亮点?首先是技术层面的突破。

其能够生成长达1分钟的超长视频,明显超越同类产品在时长上的限制;更重要的是,生成的视频在真实感和画面细致度方面达到新的高度,推动了行业标准的提升。

从官方演示看,角色面部细节、环境光影与反射等都呈现出细腻的效果,视频质量在一定程度上可与真实拍摄相媲美。

另一方面,它在理解长文本方面的能力也备受关注。官方在博客中提到,“该模型不仅能理解用户需求,还能把现实世界的存在方式映射到生成输出。”

也就是说,只需提供一段文本,它就能自动生成最长一分钟的高清视频;不仅能把文本中的复杂含义准确提炼,还能将不同元素拆解并转化为具有创意的视频内容,仿佛由专业导演、摄影师和剪辑师共同完成的作品。

例如,以“色彩丰富的鱼群和海洋生物环绕、以纸艺构建的珊瑚礁世界”为主题的视频,模型会在叙事推进中通过镜头切换来讲述故事,即使未给出明确指令,也能实现自然的场景演变。

业内人士透露,这类生成的视频若用于传统的头部动画制作,通常需要数日时间,而该模型只需几分钟即可完成。

分析机构认为,与早期视频生成模型相比,该工具具备更强的生产力潜力,尤其在需要快速产出高质量短视频的场景中,具有广阔的应用前景;未来也有望扩展到更长的视频制作,甚至催生新的内容创作生态。

不过,该技术并非完美无缺。官方指出其在模拟复杂场景的物理规律方面仍存在挑战,可能难以处理因果关系与细节层面的提示混淆。

以一则示例演示为例,中文文本的准确性和人物细节呈现仍有待提升,网友也提出了一些有趣的讨论点,例如对中文内容的处理,以及画面细节随时间变化的微妙差异等。

尽管如此,团队已证明AI 从模糊画面到可生成长视频的进步是切实可见的。

社区用户对前景的讨论热烈,不少人认为这类技术将对视频制作行业产生深远影响,极大降低制作门槛与成本,尤其是在热点和时效性强的内容领域。

更深层次的意义在于,AI 竞争本身正在升级。自2023年ChatGPT的成功后,全球范围内涌现出大量自研大模型及行业定制化模型,但真正的门槛仍然在于巨量算力、数据服务与顶尖人才资源的综合投入。

就算在算力方面,行业领头羊往往依托强大的资本实力进行大规模部署与优化,以实现效率提升。

相关报道显示,某些公司的跨境业务团队已经将AI 技术落地在翻译、营销、设计与本地化服务等领域,显著提高海外询盘与转化效率,展现出AI 技术对商业场景的直接驱动能力。

而在模型架构方面,新一代视频/图像表示方法采用与文本生成类似的“分块单元”表示,并遵循类似的缩放规律,随着计算量的增加,样本质量显著提升。

不过,目前该模型尚未向外部开放使用,公开信息主要来自官方 CEO 的公开互动与演示,可能原因之一是对算力的限制。

算力成为各方关注的核心资源之一。历史上多家高颜值的 AI 芯片初创和厂商都在争取更多的资金与资源,以支撑更大规模的训练与部署。

notwithstanding,Sora 的惊艳并不意味着没有竞争对手。市场上仍有Runway、Pika等公司在视频生成领域保持竞争,并且业内人士也在表示,将持续关注并评估与新模型的竞争格局。

同时,同行业竞争对手也在同步推进相关技术。谷歌等公司发布的并行升级版本在处理长文本与大容量数据方面具备强力能力,显示出长时信息处理的潜在增长空间。

总体而言,Sora 的出现不仅展示了OpenAI在视频生成领域的领先地位,更是大模型赛道“以大力出奇迹”的信号,暗示未来行业竞争将更为激烈,创新仍在继续。