OpenAI革命性突破:模型OpenAI o1,推理能力超越人类博士!附2024年阿里数学竞赛题测试案例

nidongde2024-09-13 11:57:2030

9月12日,OpenAI 发布了新一代推理模型 o1-preview。这个预览版本代表了一种能够解决复杂问题的新型大型语言模型系列,旨在通过延长思考时间来提升应对复杂任务的能力,特别是在科学、编码和数学等领域。

与以往的模型相比,o1-preview 的设计更接近于人类的思维方式:它在回应用户之前,会生成一条长长的内部思维链,以优化解题过程,尝试不同的策略,并识别和纠正自己的错误。

如何使用 OpenAI o1

从今天起,ChatGPT Plus 和团队用户可以在 ChatGPT 中访问 o1-preview 和 o1-mini。这两个模型可以在模型选择器中手动选择。

在初期阶段,用户每周的消息限制为 o1-preview 的30条和 o1-mini 的50条。


OpenAI o1-preview :新一代推理能力

o1-preview 在多项基准测试中表现出色。例如,在物理、化学和生物学等挑战性任务中,其表现已达到博士生水平。在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 仅正确解决了13%的问题,而新的 o1-preview 模型的得分达到了83%。此外,在编程竞赛平台 Codeforces 上,它的表现也达到了第89个百分位,这显示出其在复杂推理任务中的卓越能力。

尽管如此,作为一个早期模型,o1-preview 还没有实现诸如浏览网络和上传文件和图像等功能。在许多日常应用场景中,GPT-4o 在短期内仍然会更为强大。

OpenAI o1-mini:高效和经济的推理模型

为了提供更加高效的开发者解决方案,OpenAI 还推出了 o1-mini,这是一个更快且成本更低的推理模型,尤其适合编码任务。

与 o1-preview 相比,o1-mini 的成本低80%,特别适用于需要推理但不需要广泛世界知识的应用场景。在 STEM(科学、技术、工程和数学)领域的基准测试中,o1-mini 的表现几乎与 o1-preview 相当,但其计算成本显著降低。

强化学习和思维链的优化

OpenAI o1 系列模型采用了大规模强化学习算法,通过一种数据高效的训练过程,教会模型如何通过思维链进行有效思考。o1-preview 模型在解决问题时会模拟人类思考困难问题的方式:分解复杂步骤、尝试不同策略、识别并纠正错误等。

实际应用测试案例:

数学题:选用《2024阿里巴巴全球数学竞赛》题目

直接把题目给到chatGPT,我选择了OpenAI o1-mini模型,习惯性的给了他一个身份“你是世界著名的数学家”。可以看到模型思考了39秒后给出答案。

这答案到底对不对我也不清楚,毕竟我题目都看不懂,直接去找阿里公布的试题答案。

答案全部正确,这能力确实比较强。最后,我们看看模型思考39秒,到底在思考什么。

看完这个思考过程的链路,不得不说,真的很强大。

OpenAI o1 系列的推出标志着 AI 能力的一个新高度,特别是在科学、编码和数学等需要复杂推理的领域。例如OpenAI o1可以被医疗研究人员用来注释细胞测序数据,被物理学家用来生成量子光学所需的复杂数学公式,或者被各个领域的开发人员用来构建和执行多步骤工作流程。

本文链接:https://fsby.vip/chatgpt/95.html

OpenAI-o1OpenAI o1OpenAI01chatgpt o1o1-minio1-previewOpenAI o1 miniOpenAI o1 previewOpenAI o1官网OpenAI o1官网入口OpenAI o1地址OpenAI o1中文版openai o1模型简介

相关文章

网友评论