OpenAI o1模型背后原理猜想

CHATGPT入口2024-09-13 12:15:5774

一觉醒来,感觉要变天了。OpenAI终于发布新的模型,这个模型被称为o1。ChatGPT官网已经可以看到有两个模型,一个是o1-preview,另一个是o1-mini。

从官方发布的模型效果来看,这个模型的推理能力简直逆天(现在还有谁敢说OpenAI已经不行了?):

  • 数学能力大幅提升:在国际数学奥林匹克(IMO)资格考试中,GPT-4o 只正确解决了 13% 的问题,而o1推理模型的得分为 83%。

  • Coding能力相比于gpt4o也有明显提升

模型推理速度对比:

Q1:给我5个国家的名字,其中第三个字母是带A字母的。

对于同样一个问题,虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都正确回答,并且 o1-mini 达到答案的速度大约是 3-5 倍。

o1推理模型背后原理是什么?这里放出的o1模型,在上个月Sam Altman其实已经宣布已经推出的模型被称为“草莓”模型。


在很多文章的报道来看,它前身应该是来自于Q*模型。在2023年11月左右,有几个研究人员发文给董事会一封警告信,信里面写的内容表示:Q*模型发展得过于强大,强大到可以威胁人类得进步。


那么这个模型到底是什么东西?OpenAI还是一如既往的会藏。目前只知道它有很强的推理能力,其在数学问题上可以解决很多目前大语言模型解决不了的问题。


从网上来看,“草莓”模型(也即是o1模型)的前身Q*模型的架构存在两种猜想,下面来简单介绍一下


1

Q*模型是Q-learning和A*算法的结合这是目前网上最流行的一种猜测方法。从名字可以看出Q*模型可能分别表示Q-learning和A*算法的结合。


Q-learning是强化学习中的一个概念,它属于无模型下的一个基于价值的算法。主要是基于环境中给定的条件和状态,学习动作action和价值value。

传统的Q-learning需要保存一个Q表来进行更新。其最终目标是找到一个最优策略,定义在每个状态下采取的最佳动作,从而随着时间的推移最大化累积奖励(reward)。


而值得令人注意的是,OpenAI在2016年的一个演讲中曾经提到过这个概念,并引入 Q* 到优化策略中:


另一种算法是A*算法,这种算法是用在求解最短路径中的有效直接搜索方法。相信学过算法结构的人对于Dijkstra 算法不陌生,而A*算法不像别的算法,它是有“脑子”的。它使用到了启发式(Heuristics)函数来帮助搜索更快收敛到最短路径,非常高效。



2

过程监督解决数学问题第二种推测涉及到OpenAI于上一年5月份发布的一项技术,该技术通过“过程监督”而非“结果监督”来解决数学问题。


OpenAI通过对每个正确的推理步骤进行奖励(“过程监督”)来提高解决数学问题的水平,而不是像之前一样只是简单地奖励最终的正确答案(“结果监督”)。

OpenAI使用MATH测试集里面的问题来评估“过程监督”和“结果监督”奖励模型,并为每个问题生成了许多解答方案,然后选择每个奖励模型排名最高的解答方案。


上图展示了一个函数,即每个奖励模型选择的解答方案数量(number of samples)与选择的解答方案最终能够达到正确结果的百分比(% Problems Solved (Best-of-N))之间的关系。


除了提高与结果监督相关的性能外,过程监督还有一个重要的对齐好处:它直接训练模型以产生人类认可的思维链。

从之前OpenAI发布的论文来看,使用过程监督有以下优点:

  • 过程监督更有效,从具有挑战性的 MATH 数据集的一个子集中解决了 78% 的问题。

  • 主动学习提高了流程监督的有效性,数据效率提升了2.6倍。总结目前发布的这个o1虽然在全面性上肯定比不上GPT-4o,但是其强大的推理能力说明它具有其他模型比不了的地方。何况现在各家大模型同质化这么严重,此时推出o1模型能够重新稳固OpenAI在大模型的领先地位。这一次,可能一个新的时代要到来。

本文链接:https://fsby.vip/chatgpt/94.html

chatgpt官网中文版手机版手机怎么访问chatgpt官网chatgpt官网下载手机版chatgpt官网 佳心软件chatgpt官网中文版能做什么chatgpt官网在哪儿能打开chatgpt官网如何注册chatgpt人工智能官网下载chatgpt官网在哪打开怎么进入chatgpt官网

相关文章

  • chatgpt信雅达

    探索 ChatGPT:如何找到入口并优雅地使用信雅达在人工智能的浪潮中,ChatGPT 以其卓越的对话能力和多语言支持成为了一个热门话题,ChatGPT,即“聊天生成预训练转换器”,是一种基于深度学习...

  • 刘润chatgpt写诗

    《探索刘润的ChatGPT之旅:如何找到入口并创作诗歌》在人工智能的浪潮中,ChatGPT作为一个先进的语言模型,已经成为许多人探索创造力和沟通的新工具,特别是当刘润这样的知名人士开始使用ChatGP...

  • ChatGPT目前已满负荷运转

    ChatGPT使用指南:如何找到入口并高效使用许多用户在尝试使用ChatGPT时遇到了“目前已满负荷运转”的提示,这表明ChatGPT的受欢迎程度和使用需求正在迅速增长,为了帮助用户更好地理解如何找到...

  • “代码神器”的革命性产品——ChatGPT Canvas

    “代码神器”的革命性产品——ChatGPT Canvas

    OpenAI作为AI领域的佼佼者,一直致力于推动人工智能技术的创新和应用。最近,OpenAI再次成为科技圈的焦点,发布了一款名为“代码神器”的革命性产品——ChatGPT Canvas。这款产品不仅有...

  • ChatGpt网页版入口免登录

    在人工智能飞速发展的今天,ChatGPT作为一个先进的语言模型,已经成为许多人日常工作和学习中不可或缺的助手,它能够理解和生成自然语言,帮助用户完成各种任务,如写作、翻译、编程等,对于初次接触Chat...

  • chatgpt_jgs

    【ChatGPT使用指南】如何找到ChatGPT入口并高效使用ChatGPT软件大家好,今天我们将通过问答的形式来详细介绍如何找到ChatGPT的入口以及如何正确使用ChatGPT软件,ChatGPT...

  • chatgpt可以多设备登录么

    如何找到并正确使用ChatGPT:多设备登录指南在数字化时代,人工智能助手已经成为我们日常生活中不可或缺的一部分,ChatGPT作为其中的佼佼者,以其智能对话能力受到广泛欢迎,许多用户对于如何找到Ch...

  • 怎么退出chatgpt

    如何在ChatGPT中找到退出选项并正确使用软件:一份详细的问答指南在数字化时代,人工智能助手如ChatGPT已经成为我们日常生活和工作中不可或缺的一部分,它们帮助我们解决问题、提供信息,甚至进行娱乐...

网友评论