GPT、Sora为什么都来自OpenAI?

作者: 蒋馨尔 陈志芳 王亚赛

GPT、Sora为什么都来自OpenAI?0

视频生成模型 Sora 横空出世半个月后,仍在强势刷屏。

这款 AI 可以生成长达 60 秒的高质量视频。最令人恐惧的是,其学习的对象不局限于画面、像素,Sora 还“学会”了一些视频中呈现的物理规律(比如人在雨后走过,水面有倒影)。因此,研发它的 OpenAI 称其为“世界模拟器”。

但很多人的疑问是:几乎所有的科技巨头都在投入大模型研究,为什么这次出圈的模型,又是来自 OpenAI?

真正的伟大,无法被计划

2015 年 OpenAI 成立之初,对如何实现目标毫无头绪。

公司的创始人兼 CEO 萨姆·奥尔特曼回忆道,最初这个团队连办公室都没有,大家聚集在公寓里,他脑子一直在想:我们该怎么办?

这种状态持续了很久。OpenAI 成立一年多时,所有事情都进展缓慢。大家只是胡乱尝试一通,钻研了解决视频游戏的系统,在机器人技术上花费了大量精力,然后发几篇论文。

奥尔特曼想起当时公司的景象时说:“我们知道我们想做什么,我们知道为什么要这么做,但我们不知道怎么做。”

不过,这个团队一直被一种乐观力量所驱使,大家对于 AGI 的疯狂愿景,让事情在最终迎来了转机。所谓 AGI,即通用人工智能,也就是像人类一样完成复杂任务的 AI。

这个愿景人类期待了很久,奥尔特曼和他的团队也是。

奥尔特曼 8 岁时,父母送给他一台电脑。一次玩至深夜,他的脑海中突然闪现出一个想法:“有一天,这台计算机将学会思考。” 等奥尔特曼 2003 年进入斯坦福大学就读时,他仍想完成年少时的梦想,为此修了部分人工智能的课程,但他觉得这些“根本没什么用”。

退学后,奥尔特曼进入科技孵化器 Y Combinator 工作,并在 28 岁接任 CEO。那时,计算机已经能通过深度学习和神经网络完成一些任务,比如给照片贴标签、翻译文本等。这些进步第一次让他相信,AGI是触手可及的。

然而,把AGI交到大公司手中,让他感到担忧。奥尔特曼认为大公司会过于专注自己的产品,而无法抓住机会尽快开发出通用人工智能,即使他们真的开发出来,也可能很鲁莽地将其公之于众。

当时,奥尔特曼一直在考虑竞选加州州长,但很快他意识到,自己可以做一件更大的事:“领导一家可能改变人类的公司。”奥尔特曼开始寻找一些同行者,帮他共同创办一家新型人工智能公司。

彼时,埃隆·马斯克正因与谷歌联合创始人拉里·佩奇的一场AI 讨论,而倍感不快。马斯克事后在 CNBC 的一次节目中谈到此事,佩奇认为机器人和人类应当拥有平等的权利,并指责自己是物种歧视者。这种对于AI安全的“漠然”态度,让马斯克感到担忧。

GPT、Sora为什么都来自OpenAI?1

奥尔特曼和马斯克一拍即合。几个月内,奥尔特曼就从马斯克和里德·霍夫曼等人那里筹集了资金。奥尔特曼开始招兵买马,他将招聘范围定得极窄:必须是AGI的信徒。凭借他本人和马斯克的号召力,以及探索AGI这套诱人的话术,奥尔特曼挖来了 Stripe CTO Greg Brockman和谷歌大脑核心科学家 Ilya Sutskever 等人。

转折点出现在公司成立一年多后,OpenAI先后等来了一个人和一项技术。

一个人是传奇AI研究员Alec Radford。他 2016年加入 OpenAI 时,最大的兴趣是让神经网络与人类进行清晰的对话。

他先是通过20亿条Reddit评论来训练语言模型。和OpenAI的许多早期实验一样,这个实验失败了,但这个23岁的年轻人获得了继续前进、再次失败的许可。Alec Radford继续使用1亿条亚马逊评论训练模型,去预测、生成评论中的下一个字符。这一模型能够判断评论是正面还是负面的,如果让模型创建一条正面或负面的评论,它也能做到。“这完全是意外之喜”,辨别评论的情感是一个复杂函数,但不知为何,Alec Radford的模型找到了一点感觉。

而OpenAI等来的技术则诞生自它的竞争对手谷歌。2017 年初,一篇由 8 位谷歌研究人员合著的研究论文预印本出现了,但并未引起人们的注意。这篇论文的正式标题是“Attention Is All You Need”,它后来被称为“Transformer 论文”。Transformer使神经网络能够更高效地理解和生成语言,通过并行分析语料,找出哪些元素值得关注。这极大地优化了生成连贯文本以响应提示的过程。后来人们意识到,同样的技术也可以生成图像甚至视频。

虽然该论文后来被称为当前 AI狂潮的催化剂,但在当时,Ilya Sutskever只是少数几个了解这一突破有多么强大的人之一。Brockman 回忆道,Ilya 看到 Transformer 出现时,惊喜地喊道:“这就是我们一直在等待的。”

之后,Alec Radford 开始试验 Transformer 架构。他表示,当时在两周内取得的进展超过了过去两年的进展。

Radford 和他的合作者给他们创建的模型起的名字是“generatively pretrained transformer”——这就是今天我们耳熟能详的 GPT 一词缩写的全称。最终,这个模型被通称为“生成式 AI”。该模型包含 1.17 亿个参数或变量,在理解语言和生成答案方面的表现优于之前的所有模型。

GPT、Sora为什么都来自OpenAI?2

仅从事后的叙述来看,OpenAI 的成功仿佛是一步一个脚印的,它把握住了所有关键时点,无一遗漏。但是奥尔特曼仍然强调:“我们没有总体规划。”OpenAI所做的一切就像“穿过迷宫到达终点”,而终点即是安全的 AGI。

即便是对于GPT的诞生,奥尔特曼也感到吊诡。他10岁时,对于AI的想象遵循这样的路径:有机器人后,先体力再脑力;在初级脑力工作后,再会做复杂脑力工作,比如证明一个数学定理,最后才是拥有创造、写作等深层次能力的 AI。但“事实正朝着完全相反的方向发展”。

OpenAI的科学家肯尼斯·斯坦利和乔尔·雷曼在近期出版的书籍《为什么伟大不能被计划》对此进行了高度总结:真正的伟大无法在计划中诞生。

作者乔尔·雷曼在一次专访中表示OpenAI做了很多了不起的事,但ChatGPT绝对不是OpenAI 成立之初的目标。OpenAI的许多早期探索还与电子游戏、多代理模拟(multi-agent simulations)和机器人有关,许多通往 ChatGPT 的踏脚石都没有把 ChatGPT 当成最终目标。

某种意义上,ChatGPT 的紧急推出,也是一种营销策略。

营销踩点,OpenAI 抢走谷歌风头

OpenAI 成立之初,颇有一层与谷歌对抗的意味。奥尔特曼和马斯克都认为:与其让大公司控制少量的 AI 系统,不如让大量独立的 AI 系统同时存在予以制衡,人们可以根据开放的源代码建立各自的 AI 系统。

彼时的谷歌确实是 AI 领域的老大哥,ChatGPT 最初依赖的 Transformer 架构即来源于谷歌。但现在的 OpenAI 至少在 AI 领域,已有足够的底气和谷歌掰手腕。

仅从事后的叙述来看,OpenAI 的成功仿佛是一步一个脚印的,它把握住了所有关键时点,无一遗漏。但是奥尔特曼仍然强调:“我们没有总体规划。”OpenAI 所做的一切就像“穿过迷宫到达终点”,而终点即是安全的 AGI。

最近一次商战在 2 月 16 日。

当时,谷歌推出了据称性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ,而仅仅在两小时后,OpenAI 就推出了 Sora。Sora 推出后,奥尔特曼在社交媒体X上在线接单,按照用户给出的提示词一连发布了 8 条视频。此外,OpenAI 官方号还进驻 TikTok 发布 Sora 视频,仅一周时间就收获了超 14 万粉丝。这些方式进一步“炒火”了 Sora。

很难说,这只是一种巧合。我们发现在谷歌推出某项新产品、新模型或新计划后,奥尔特曼常常会从“武器库”里翻出一把利器。人们的目光便立刻从谷歌身上移开,并且不再回来。360 创始人周鸿祎对此表态:“OpenAI CEO 是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。”

这样的例子并不鲜见。

谷歌在 2023 年 3 月 22 日推出聊天机器人 Bard,当被问及与 ChatGPT 的区别时,Bard 就回复:“我不仅基于文本和代码,并且有互联网上的真实世界的信息作为支撑,因此我能够做到 ChatGPT 做不到的事。”仅仅两天后,OpenAI 就宣布向部分用户开放插件和联网功能。

到了 2023 年 5 月,谷歌和 OpenAI 的擂台仍不休止。前脚是谷歌在开发者大会上宣布一系列 AI 成果——推出据称部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 联网,后脚 OpenAI 就宣布向会员开放插件和联网功能。

当然 OpenAI 的营销瞄准对象并不仅谷歌一家。

OpenAI在2022年4月份小范围内推出了文生图模型 DALL·E2,不过很快风头就被开源的 Stable Diffusion 和另一竞争对手 Midjourney 盖过。数以百万计的用户都在使用文生图产品,一时间呈现出病毒式传播现象。

OpenAI 从中获得的启示是,向大众公开生成式 AI 产品,不仅能吸引大量用户,收获有价值的用户数据,还可能引来更多资金。

那什么样的营销事件能让话题关注度迅速回来?

OpenAI 的答案是聊天机器人。

彼时,OpenAI 在 GPT 4 上已经花了一整年,模型也基本准备就绪。但是来自市场层面的压力迫使 OpenAI 调转车头,迅速发布一个聊天机器人。从计划推出 GPT 4 转到做一款聊天机器人,仅仅13天后,ChatGPT 就诞生了。

这种策略后来被称为“迭代部署”,构建所谓的“最小可行产品”:先拼凑出一个很酷的演示,吸引一小群喜欢它的用户,并根据用户反馈进行改进,再把产品推向全世界。最终,如果足够幸运并且做得正确的话,这将吸引大量用户,点燃媒体炒作周期的导火索,巨额资金将随之而来。

暴力美学,Scaling Law信仰

这次出圈爆火的Sora可以生成长达 60 秒的高质量视频。令人恐惧的是,其学习的对象不再限于画面和像素,它还“学会”了视频中展示的物理规律。

Sora使用一种新的Diffusion Transformer模型,它融合了扩散模型与自回归模型的双重特性。不过,在 Sora 的技术文档里,OpenAI并没有展开模型的技术细节,只有透露了诸如“patch(视觉补丁)技术”“重新字幕技术”等拼图碎片。

经典小说推荐

杂志订阅