OpenAI o1大模型

CHATGPT入口2024-09-13 11:53:20215

Again，思路还是比较正常的（补一句，并不意味着做起来简单）。“很早”的时候，就看到过AWS的一篇文章是先做一次思维链，再在思维链基础上去总结的方案，虽然我也不知道怎么去搜这篇文章了。。。

所以更多的，是给了大家一个具体的证明，就是用这种人工产生的数据或者说强化学习，还是可以接着把推理方面的性能往上提的。感觉总的传闻就是大家都在干这个。然后不知道是不是OpenAI为了融资必须先端一点什么出来。看他们youtube上的视频也搞得挺着急挺抽象的。

工程上肯定是有很多细节的。比如看他们提供的例子里面的思维链的部分

像"Wait, but..."这种语言，平时是不会在这些大模型的输出里的。一方面是因为，不管是互联网，还是数学书，都不太会有这种具体的思考过程。所以拿这些现成数据训练出来的模型也不太会讲这种话。他们似乎没具体讲是怎么训练产生思维链的模型的。不过他们明确说了思维链部分的输出不会给用户，因为给了的话，大家就都可以拿去训练了。

这张图是讲“强化学习”能带来的提升。横轴是对数，所以也不好说这条路能走多远。但应该不是每道题均匀的一个错误率，否则靠majority voting或者尝试直到通过可以更快的把成功率提上去。

我们就假设o1应该是比o1 preview大一点的模型。挺有意思的，就是性能在科学GPQA已经收敛了（又到了可以吐槽不同学科竞赛含金量的时候了。不过认真地说，题目性质其实完全不一样，参见下文）。另一方面，我觉得science方面的问题是有点内在的错误率的。所以一直到现在，哪怕是物理这种已经比较数学的科学，实验一直是很被强调的一个方面，因为基本没有一个严格正确的推理。然后这种实验验证只有靠模型和现实世界的交互去实现。

不过我也不完全相信GPQA这个dataset的质量。比如他们文章里给的这个很量子信息的问题，就有一点怪怪的。大致上就是题干里和选项里的p不是同一个参数。然后我觉得也不太会说Kraus representation of the state，一般会说Kraus representation of the channel吧。

AIME的题目我去大概看了一眼，感觉还是比IMO或者国内竞赛之类容易不少的。不过与其说是在考验数学推理能力，不如说是在处理自然语言数学里的错误率问题。毕竟形式化的证明那边已经可以做IMO了。当然另一个差别是，o1 preview显然是在一个比较小的计算量下去做完题的，因为已经开放给用户用了，而google那边还是一个比较黑盒的状态。

大致就是这些吧。但感觉这种画饼式发布真的也是受够了。不过关于之前语音的模型，拖了很久貌似是因为语音上hallucination（或者说出错吧）的时候效果太恐怖了。平时文字版你出来些乱码或者什么的用户也就认了，语音聊天的时候冒出来的奇怪的东西真的可以被吓死。

本文链接：https://fsby.vip/chatgpt/96.html

chatgpt官网注册使用 chatgptai官网 chatgpt官网中文版能做什么 chatgpt官网如何注册 chatgpt官网介绍官网下载chatgpt教程 chatgpt官网在哪打开官网chatgpt chatgpt官网免费 chatgpt 官网中文版