OpenAI发布o3意义重大

CHATGPT入口2024-12-24 12:43:42170

OpenAI连续12天的连续剧不出意外的在最后一天出了王炸--o3。各种评测显示o3进步巨大：

编程竞赛：在最近的编程竞赛中，o3 的表现可以与世界上顶尖的程序员相媲美

GPQA：在 GPQA 数据集上，o3 的得分高达 87.7%（Gemini Flash 2 62%， o1 78%）

软件工程： o3 在 SWE-bench 验证集上的得分高达 71.7%，比 o1 高出 22.8 分。

数学难题：在 2024 年美国数学奥林匹克竞赛中只错了一道题，获得近 96.7% 的近乎完美得分。在 FrontierMath 2024-11-26 数据集上，o3 将准确率从 2% 提高到 25%。

ARC-AGI：在 ARC 数据集上，o3 的得分在半私有测试集和公开验证集上分别达到了 87.5% 和 91.5%，sonnet10月22日的测试结果只有20%。

不是AGI（通用人工智能）

ARC-AGI 即抽象和推理语料库，是衡量 AI 获取新技能效率、评估其是否迈向通用智能的基准测试，o3获得了史无前例的高分远远超过其它大模型。

但它诞生于2019年，即将升级到 ARC-AGI-2，官方预测o3的得分可能会降低到30%以下，而人类在没有训练的情况下得分可以超过95%。虽然o3在许多高难度评测中取得了很好的成绩，但却无法解决一些在人类看起来很简单的问题，所以它仍然不是AGI。如果找到人类可以轻松解决而AI很难解决的问题变得非常困难的时候，就是AGI了，但现在显然不是。

OpenAI o3仍然是巨大的升级

ARC-AGI 是专门设计来衡量对新事物适应性的基准，GPT-3得0分，GPT-4也是0分，GPT-4o得分接近5%。可见单纯的扩大模型参数和训练量无法提升模型的泛化能力，必须找到新的范式。为了适应新事物，人类通常需要两样东西：首先是知识，对模型来说是一组可重复使用的函数或程序来利用。大模型有足够多的知识。其次，需要在面对新任务时有重组知识的能力，对模型来说一个对新任务进行建模的程序，所谓程序合成。大模型长期以来一直缺乏这个功能，但o系列模型解决了这个问题。o3的核心机制应当也是RFT技术（Reinforcement Fine Tuning），是在token空间内的大模型引导的自然语言程序搜索和执行，模型搜索描述解决任务所需步骤所有可能的思想链（CoT），而且有一个评估模型对每一条链路进行评估反馈。这可能也是解决单个 ARC-AGI 任务最终会占用数千万个tokens并花费1000美元的原因。总而言之，o3 代表了一个重大的飞跃，修复了大模型范式的根本限制——无法重新组合知识——它是通过一种 LLM 引导的自然语言程序搜索来实现的。这不仅仅是渐进的进步，而是一个新的领域。

Scaling law远未结束

模型进步并未放缓，post train 阶段的 scaling law 要比预期更有效。o1 preview是9月12日，o1正式版是12月5日，o3是12月20日，模型进步不但显著而且速度快，所以IIya看好合成数据和post train。Pre-train 面临的瓶颈并非 scaling law 失效，而是缺乏数据。

结论：

模型进步是AI投资逻辑的核心，对应用和硬件都是。但边际上，o3对硬件的预期改变更大一些，毕竟模型进步如此之快是远超市场预期的，OpenAI距离AGI更近了一步，必然会坚定的投入；而其它距离OpenAI又更远了一些，追赶的空间又大了一些。不管是光模块龙头50份额能不能守得住，不管未来是ASIC和GPU蛋糕比例如何划分，在AI未来渗透率几十倍空间面前现阶段都不构成本质的利空。

本文链接：https://fsby.vip/chatgpt/915.html

chatgpt官网中文版登录 chatgpt官网介绍 chatgpt官网中 chatgpt官网中文版下载手机版 chatgpt中文下载手机版官网 chatgpt官网中文版电脑版免费下载 chatgpt美国官网 chatgpt官网设置页面 chatgpt官网怎么使用开源chatgpt官网中文电脑版