当前位置:首页 > 资讯 >

OpenAI 文本转视频模型 Sora 令人惊叹,但仍然存在弱点

人工智能公司 OpenAI 于周四推出了其首个文本转视频模型,获得了热烈反响,不过该公司承认该模型还有很长的路要走。

OpenAI 于 2 月 15 日推出了名为 Sora 的新生成式 AI 模型,据称该模型可以根据简单的文本提示创建详细的视频、延续现有视频,甚至基于静态图像生成场景。

隆重推出 Sora,我们的文本转视频模型。Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。

https://t.co/7j2JN27M3WPprompt:“美丽,白雪皑皑…… pic.twitter.com/ruTEWn87vf

- OpenAI (@OpenAI) 2024 年 2 月 15 日

根据 2 月 15 日的博客文章,OpenAI 声称 AI 模型可以生成分辨率高达 1080p 的类似电影的场景。

这些场景可以包括多个角色、特定类型的运动以及主题和背景的准确细节。

索拉的工作原理

与 OpenAI 基于图像的前身 DALL-E 3 非常相似,Sora 运行在所谓的“扩散”模型上。

扩散是指生成式人工智能模型通过生成看起来更像“静态噪声”的视频或图像来创建其输出,然后通过几个步骤“消除噪声”来逐渐对其进行转换。

宣布推出 Sora——我们的模型可以根据文本提示创建一分钟长的视频:https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG

— 格雷格·布罗克曼 (@gdb) 2024 年 2 月 15 日

这家人工智能公司写道,Sora 是建立在 GPT 和 DALL-E3 模型过去研究的基础上的,该公司声称这使得该模型能够更好地“忠实”地代表用户输入。

OpenAI 承认 Sora 仍然存在一些弱点,并且很难准确地模拟复杂场景的物理原理,即混淆了因果关系的本质。

“例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。”

该公司表示,新工具还可能通过混淆左右方向或无法遵循精确的方向描述来混淆给定提示的“空间细节”。

索拉可能会意外地产生物理上难以置信的运动。

来源:OpenAI

OpenAI 表示,新的生成模型目前仅适用于“红队成员”(网络安全研究人员的技术用语),以评估“危害或风险的关键领域”,并选择设计师、视觉艺术家和电影制作人来收集有关如何推进模型。

2023 年 12 月,斯坦福大学的一份报告显示,使用人工智能数据库 LAION 的人工智能图像生成工具正在接受数千张非法虐待儿童材料的图像的训练,这引发了文本到文本转换的严重道德和法律问题。图像或视频模型。

X上的用户“无语”

数十个视频演示已在 X 上流传,展示了 Sora 的实际操作示例,而 Sora 目前在 X 上已发布超过 173,000 个帖子,成为热门话题。

为了展示新的生成模型的能力,OpenAI 首席执行官 Sam Altman 向 X 上的用户开放了自定义视频生成请求,这位 AI 负责人总共分享了 7 个 Sora 生成的视频,从鸭子骑龙回到金毛猎犬在山顶录制播客。

https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP

— Sam Altman (@sama) 2024 年 2 月 15 日

人工智能评论员 Mckay Wrigley 以及其他许多人写道,Sora 生成的视频让他“无言以对”。

Nvidia 高级研究员 Jim Fan 在 2 月 15 日发布的 X 帖子中宣称,任何认为 Sora 只是另一个“创意玩具”(如 DALL-E 3)的人都大错特错。

如果您认为 OpenAI Sora 是像 DALLE 一样的创意玩具,...再想一想。

Sora 是一个数据驱动的物理引擎。

它是对许多世界的模拟,无论是真实的还是幻想的。

模拟器学习复杂的渲染、“直观”物理、长期推理和语义基础,所有这些…… pic.twitter.com/pRuiXhUqYR

— 吉姆·范 (@DrJimFan) 2024 年 2 月 15 日

在 Fan 看来,Sora 与其说是一个视频生成工具,不如说是一个“数据驱动的物理引擎”,因为人工智能模型不仅生成抽象视频,而且还确定性地创建场景本身中对象的物理特性。

杂志:“加密货币是不可避免的”,所以我们“全力以赴”——万斯·斯宾塞 (Vance Spencer),permabull

猜你喜欢

关注我们

微信二维码

微信