GPT、Sora为什么都来自OpenAI？

GPT、Sora为什么都来自OpenAI？0

视频生成模型 Sora 横空出世半个月后，仍在强势刷屏。

这款 AI 可以生成长达 60 秒的高质量视频。最令人恐惧的是，其学习的对象不局限于画面、像素，Sora 还“学会”了一些视频中呈现的物理规律（比如人在雨后走过，水面有倒影）。因此，研发它的 OpenAI 称其为“世界模拟器”。

但很多人的疑问是：几乎所有的科技巨头都在投入大模型研究，为什么这次出圈的模型，又是来自 OpenAI？

真正的伟大，无法被计划

2015 年 OpenAI 成立之初，对如何实现目标毫无头绪。

公司的创始人兼 CEO 萨姆·奥尔特曼回忆道，最初这个团队连办公室都没有，大家聚集在公寓里，他脑子一直在想：我们该怎么办？

这种状态持续了很久。OpenAI 成立一年多时，所有事情都进展缓慢。大家只是胡乱尝试一通，钻研了解决视频游戏的系统，在机器人技术上花费了大量精力，然后发几篇论文。

奥尔特曼想起当时公司的景象时说：“我们知道我们想做什么，我们知道为什么要这么做，但我们不知道怎么做。”

不过，这个团队一直被一种乐观力量所驱使，大家对于 AGI 的疯狂愿景，让事情在最终迎来了转机。所谓 AGI，即通用人工智能，也就是像人类一样完成复杂任务的 AI。

这个愿景人类期待了很久，奥尔特曼和他的团队也是。

奥尔特曼 8 岁时，父母送给他一台电脑。一次玩至深夜，他的脑海中突然闪现出一个想法：“有一天，这台计算机将学会思考。” 等奥尔特曼 2003 年进入斯坦福大学就读时，他仍想完成年少时的梦想，为此修了部分人工智能的课程，但他觉得这些“根本没什么用”。

退学后，奥尔特曼进入科技孵化器 Y Combinator 工作，并在 28 岁接任 CEO。那时，计算机已经能通过深度学习和神经网络完成一些任务，比如给照片贴标签、翻译文本等。这些进步第一次让他相信，AGI是触手可及的。

然而，把AGI交到大公司手中，让他感到担忧。奥尔特曼认为大公司会过于专注自己的产品，而无法抓住机会尽快开发出通用人工智能，即使他们真的开发出来，也可能很鲁莽地将其公之于众。

当时，奥尔特曼一直在考虑竞选加州州长，但很快他意识到，自己可以做一件更大的事：“领导一家可能改变人类的公司。”奥尔特曼开始寻找一些同行者，帮他共同创办一家新型人工智能公司。

彼时，埃隆·马斯克正因与谷歌联合创始人拉里·佩奇的一场AI 讨论，而倍感不快。马斯克事后在 CNBC 的一次节目中谈到此事，佩奇认为机器人和人类应当拥有平等的权利，并指责自己是物种歧视者。这种对于AI安全的“漠然”态度，让马斯克感到担忧。

奥尔特曼和马斯克一拍即合。几个月内，奥尔特曼就从马斯克和里德·霍夫曼等人那里筹集了资金。奥尔特曼开始招兵买马，他将招聘范围定得极窄：必须是AGI的信徒。凭借他本人和马斯克的号召力，以及探索AGI这套诱人的话术，奥尔特曼挖来了 Stripe CTO Greg Brockman和谷歌大脑核心科学家 Ilya Sutskever 等人。

转折点出现在公司成立一年多后，OpenAI先后等来了一个人和一项技术。

一个人是传奇AI研究员Alec Radford。他 2016年加入 OpenAI 时，最大的兴趣是让神经网络与人类进行清晰的对话。

他先是通过20亿条Reddit评论来训练语言模型。和OpenAI的许多早期实验一样，这个实验失败了，但这个23岁的年轻人获得了继续前进、再次失败的许可。Alec Radford继续使用1亿条亚马逊评论训练模型，去预测、生成评论中的下一个字符。这一模型能够判断评论是正面还是负面的，如果让模型创建一条正面或负面的评论，它也能做到。“这完全是意外之喜”，辨别评论的情感是一个复杂函数，但不知为何，Alec Radford的模型找到了一点感觉。

而OpenAI等来的技术则诞生自它的竞争对手谷歌。2017 年初，一篇由 8 位谷歌研究人员合著的研究论文预印本出现了，但并未引起人们的注意。这篇论文的正式标题是“Attention Is All You Need”，它后来被称为“Transformer 论文”。Transformer使神经网络能够更高效地理解和生成语言，通过并行分析语料，找出哪些元素值得关注。这极大地优化了生成连贯文本以响应提示的过程。后来人们意识到，同样的技术也可以生成图像甚至视频。

虽然该论文后来被称为当前 AI狂潮的催化剂，但在当时，Ilya Sutskever只是少数几个了解这一突破有多么强大的人之一。Brockman 回忆道，Ilya 看到 Transformer 出现时，惊喜地喊道：“这就是我们一直在等待的。”

之后，Alec Radford 开始试验 Transformer 架构。他表示，当时在两周内取得的进展超过了过去两年的进展。

Radford 和他的合作者给他们创建的模型起的名字是“generatively pretrained transformer”——这就是今天我们耳熟能详的 GPT 一词缩写的全称。最终，这个模型被通称为“生成式 AI”。该模型包含 1.17 亿个参数或变量，在理解语言和生成答案方面的表现优于之前的所有模型。

仅从事后的叙述来看，OpenAI 的成功仿佛是一步一个脚印的，它把握住了所有关键时点，无一遗漏。但是奥尔特曼仍然强调：“我们没有总体规划。”OpenAI所做的一切就像“穿过迷宫到达终点”，而终点即是安全的 AGI。

即便是对于GPT的诞生，奥尔特曼也感到吊诡。他10岁时，对于AI的想象遵循这样的路径：有机器人后，先体力再脑力；在初级脑力工作后，再会做复杂脑力工作，比如证明一个数学定理，最后才是拥有创造、写作等深层次能力的 AI。但“事实正朝着完全相反的方向发展”。

OpenAI的科学家肯尼斯·斯坦利和乔尔·雷曼在近期出版的书籍《为什么伟大不能被计划》对此进行了高度总结：真正的伟大无法在计划中诞生。

作者乔尔·雷曼在一次专访中表示OpenAI做了很多了不起的事，但ChatGPT绝对不是OpenAI 成立之初的目标。OpenAI的许多早期探索还与电子游戏、多代理模拟（multi-agent simulations）和机器人有关，许多通往 ChatGPT 的踏脚石都没有把 ChatGPT 当成最终目标。

某种意义上，ChatGPT 的紧急推出，也是一种营销策略。

营销踩点，OpenAI 抢走谷歌风头

OpenAI 成立之初，颇有一层与谷歌对抗的意味。奥尔特曼和马斯克都认为：与其让大公司控制少量的 AI 系统，不如让大量独立的 AI 系统同时存在予以制衡，人们可以根据开放的源代码建立各自的 AI 系统。

彼时的谷歌确实是 AI 领域的老大哥，ChatGPT 最初依赖的 Transformer 架构即来源于谷歌。但现在的 OpenAI 至少在 AI 领域，已有足够的底气和谷歌掰手腕。

仅从事后的叙述来看，OpenAI 的成功仿佛是一步一个脚印的，它把握住了所有关键时点，无一遗漏。但是奥尔特曼仍然强调：“我们没有总体规划。”OpenAI 所做的一切就像“穿过迷宫到达终点”，而终点即是安全的 AGI。

最近一次商战在 2 月 16 日。

当时，谷歌推出了据称性能上超越 GPT-4 Turbo 的 Gemini 1.5 PRO ，而仅仅在两小时后，OpenAI 就推出了 Sora。Sora 推出后，奥尔特曼在社交媒体X上在线接单，按照用户给出的提示词一连发布了 8 条视频。此外，OpenAI 官方号还进驻 TikTok 发布 Sora 视频，仅一周时间就收获了超 14 万粉丝。这些方式进一步“炒火”了 Sora。

很难说，这只是一种巧合。我们发现在谷歌推出某项新产品、新模型或新计划后，奥尔特曼常常会从“武器库”里翻出一把利器。人们的目光便立刻从谷歌身上移开，并且不再回来。360 创始人周鸿祎对此表态：“OpenAI CEO 是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。”

这样的例子并不鲜见。

谷歌在 2023 年 3 月 22 日推出聊天机器人 Bard，当被问及与 ChatGPT 的区别时，Bard 就回复：“我不仅基于文本和代码，并且有互联网上的真实世界的信息作为支撑，因此我能够做到 ChatGPT 做不到的事。”仅仅两天后，OpenAI 就宣布向部分用户开放插件和联网功能。

到了 2023 年 5 月，谷歌和 OpenAI 的擂台仍不休止。前脚是谷歌在开发者大会上宣布一系列 AI 成果——推出据称部分能力超越 GPT4 的 PaLM 2 模型、演示 Bard 联网，后脚 OpenAI 就宣布向会员开放插件和联网功能。

当然 OpenAI 的营销瞄准对象并不仅谷歌一家。

OpenAI在2022年4月份小范围内推出了文生图模型 DALL·E2，不过很快风头就被开源的 Stable Diffusion 和另一竞争对手 Midjourney 盖过。数以百万计的用户都在使用文生图产品，一时间呈现出病毒式传播现象。

OpenAI 从中获得的启示是，向大众公开生成式 AI 产品，不仅能吸引大量用户，收获有价值的用户数据，还可能引来更多资金。

那什么样的营销事件能让话题关注度迅速回来？

OpenAI 的答案是聊天机器人。

彼时，OpenAI 在 GPT 4 上已经花了一整年，模型也基本准备就绪。但是来自市场层面的压力迫使 OpenAI 调转车头，迅速发布一个聊天机器人。从计划推出 GPT 4 转到做一款聊天机器人，仅仅13天后，ChatGPT 就诞生了。

这种策略后来被称为“迭代部署”，构建所谓的“最小可行产品”：先拼凑出一个很酷的演示，吸引一小群喜欢它的用户，并根据用户反馈进行改进，再把产品推向全世界。最终，如果足够幸运并且做得正确的话，这将吸引大量用户，点燃媒体炒作周期的导火索，巨额资金将随之而来。

暴力美学，Scaling Law信仰

这次出圈爆火的Sora可以生成长达 60 秒的高质量视频。令人恐惧的是，其学习的对象不再限于画面和像素，它还“学会”了视频中展示的物理规律。

Sora使用一种新的Diffusion Transformer模型，它融合了扩散模型与自回归模型的双重特性。不过，在 Sora 的技术文档里，OpenAI并没有展开模型的技术细节，只有透露了诸如“patch（视觉补丁）技术”“重新字幕技术”等拼图碎片。

GPT、Sora为什么都来自OpenAI？

真正的伟大，无法被计划

营销踩点，OpenAI 抢走谷歌风头

暴力美学，Scaling Law信仰

经典小说推荐

杂志订阅