OpenAI o1模型背后原理猜想

CHATGPT入口2024-09-13 12:15:57286

一觉醒来，感觉要变天了。OpenAI终于发布新的模型，这个模型被称为o1。ChatGPT官网已经可以看到有两个模型，一个是o1-preview，另一个是o1-mini。

从官方发布的模型效果来看，这个模型的推理能力简直逆天（现在还有谁敢说OpenAI已经不行了？）：

模型推理速度对比：

Q1：给我5个国家的名字，其中第三个字母是带A字母的。

对于同样一个问题，虽然 GPT-4o 没有正确回答，但 o1-mini 和 o1-preview 都正确回答，并且 o1-mini 达到答案的速度大约是 3-5 倍。

o1推理模型背后原理是什么？这里放出的o1模型，在上个月Sam Altman其实已经宣布已经推出的模型被称为“草莓”模型。

在很多文章的报道来看，它前身应该是来自于Q*模型。在2023年11月左右，有几个研究人员发文给董事会一封警告信，信里面写的内容表示：Q*模型发展得过于强大，强大到可以威胁人类得进步。

那么这个模型到底是什么东西？OpenAI还是一如既往的会藏。目前只知道它有很强的推理能力，其在数学问题上可以解决很多目前大语言模型解决不了的问题。

从网上来看，“草莓”模型（也即是o1模型）的前身Q*模型的架构存在两种猜想，下面来简单介绍一下

1

Q*模型是Q-learning和A*算法的结合这是目前网上最流行的一种猜测方法。从名字可以看出Q*模型可能分别表示Q-learning和A*算法的结合。

Q-learning是强化学习中的一个概念，它属于无模型下的一个基于价值的算法。主要是基于环境中给定的条件和状态，学习动作action和价值value。

传统的Q-learning需要保存一个Q表来进行更新。其最终目标是找到一个最优策略，定义在每个状态下采取的最佳动作，从而随着时间的推移最大化累积奖励（reward）。

而值得令人注意的是，OpenAI在2016年的一个演讲中曾经提到过这个概念，并引入 Q* 到优化策略中：

另一种算法是A*算法，这种算法是用在求解最短路径中的有效直接搜索方法。相信学过算法结构的人对于Dijkstra 算法不陌生，而A*算法不像别的算法，它是有“脑子”的。它使用到了启发式（Heuristics）函数来帮助搜索更快收敛到最短路径，非常高效。

2

过程监督解决数学问题第二种推测涉及到OpenAI于上一年5月份发布的一项技术，该技术通过“过程监督”而非“结果监督”来解决数学问题。

OpenAI通过对每个正确的推理步骤进行奖励（“过程监督”）来提高解决数学问题的水平，而不是像之前一样只是简单地奖励最终的正确答案（“结果监督”）。

OpenAI使用MATH测试集里面的问题来评估“过程监督”和“结果监督”奖励模型，并为每个问题生成了许多解答方案，然后选择每个奖励模型排名最高的解答方案。

上图展示了一个函数，即每个奖励模型选择的解答方案数量（number of samples）与选择的解答方案最终能够达到正确结果的百分比（% Problems Solved (Best-of-N)）之间的关系。

除了提高与结果监督相关的性能外，过程监督还有一个重要的对齐好处：它直接训练模型以产生人类认可的思维链。

从之前OpenAI发布的论文来看，使用过程监督有以下优点：

过程监督更有效，从具有挑战性的 MATH 数据集的一个子集中解决了 78% 的问题。
主动学习提高了流程监督的有效性，数据效率提升了2.6倍。总结目前发布的这个o1虽然在全面性上肯定比不上GPT-4o，但是其强大的推理能力说明它具有其他模型比不了的地方。何况现在各家大模型同质化这么严重，此时推出o1模型能够重新稳固OpenAI在大模型的领先地位。这一次，可能一个新的时代要到来。