OpenAI 于 2024 年 9 月发布了其首款具有推理能力的模型 o1。o1 模型是一系列计划中的 “推理” 模型中的首个,与 o1-mini 一起发布。o1 代表着 OpenAI 朝着类人人工智能这一更广泛目标迈出的一步,在编写代码和解决多步骤问题方面比以前的模型做得更好。
o1 背后的训练与其前身有根本的不同,它是使用全新的优化算法和专门为其定制的新训练数据集进行训练的。采用强化学习技术,通过奖励和惩罚来教导系统,使用 “思维链” 来处理查询,类似于人类通过逐步解决问题的方式。
o1 在多个方面表现出色。在国际数学奥林匹克的资格考试(AIME)中,o1 的正确率为 83%,成功进入了美国前 500 名学生的行列,而 GPT-4o 模型的正确率仅为 13%。在 Codeforces 比赛中排名 89%。在物理、化学和生物问题的基准测试中,该系列后续更新的模型表现与博士生相似。
o1 的发布被视为人工智能能力的新水平,但它也有一些局限性。比如它比 GPT-4o 更昂贵且使用速度更慢。开发人员访问 o1 非常昂贵,在 API 中,o1-preview 每 100 万个输入令牌为 15 美元,每 100 万个输出令牌为 60 美元。相比之下,GPT-4o 每 100 万个输入令牌的费用为 5 美元,每 100 万个输出令牌为 15 美元。作为早期模型,它还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。
目前,o1-preview 和 o1-mini 已经面向 ChatGPT Plus 和 Team 订阅用户开放,Enterprise 和 Edu 用户将于下周初获得访问权限。OpenAI 表示计划为 ChatGPT 的所有免费用户提供 o1-mini 的访问权限,但尚未确定发布日期。o1-preview 每周速率限制为 30 条消息,o1-mini 每周速率限制为 50 条。对于开发者而言,符合 API tier 5 的开发者可以通过 API 使用这些模型,每分钟请求数限制为 20 条。
o1 模型的训练方式有何不同
OpenAI 的 o1 模型采用了全新的训练方式。首先,它使用了一种全新的优化算法和专门为其量身定制的新训练数据集进行训练,数据集中包含 “推理数据” 和专门的科学文献。其次,与之前的 GPT 模型训练方法不同,o1 采用 “强化学习” 的方式,通过奖励和惩罚来教导模型自行解决问题。例如,o1 在回应用户之前会产生一个很长的内部思维链,类似于人类一步步来处理问题的方式。这种训练方式使得 o1 能够识别并修正自己的错误,尝试多种策略,将复杂问题分解成更小、更易处理的子问题。同时,o1 采用大规模强化学习算法进行训练,这种方法教会模型如何高效地利用思维链进行生产性思考,使其在推理和解决问题方面的能力远超简单提示所能达到的水平。
o1 在各领域的表现如何
在数学领域,o1 在国际数学奥林匹克(IMO)的资格考试中,正确率高达 83%,而 GPT-4o 仅为 13%。在编程方面,o1 的编码能力在竞赛中得到了评估,在 Codeforces 竞赛中达到了第 89 个百分点。在物理、化学和生物等具有挑战性的基准任务上,o1 的表现达到了博士生的水平。例如,在一些科学测试中,o1 准确回答了 78% 的博士等级的科学问题,而 GPT-4o 为 56.1%,人类专家为 69.7%。此外,o1 在处理复杂的编程和数学问题时具有独特优势,并能解释其推理过程。在教育领域,o1 可以成为个性化的 “AI 老师”,根据学生的学习情况提供定制化的辅导,帮助学生更好地理解和掌握知识。在科研领域,o1 可以帮助科学家进行数据分析、模型构建,加速科学研究的进程。
o1 有哪些局限性
o1 也并非完美无缺。虽然它在推理能力上取得了重大突破,但在处理常识性问题、浏览网页、处理图像等方面,o1 的表现还有待提升。例如,在处理简单比较问题时,比如 “9.11 和 9.8 哪个大” 的经典难题,o1 表现得显得无能为力。这表明,即便是在推理能力大幅提升的情况下,模型在直观理解和常识判断方面依然存在不足。o1 的高昂成本和较慢的运行速度也限制了它的普及应用。开发者使用 o1 的成本相当高昂,o1-preview 的输入 token 价格为每百万个 15 美元,输出 token 价格为每百万个 60 美元,而 GPT-4o 的输入 token 价格为每百万个 5 美元,输出 token 价格为每百万个 15 美元。此外,o1 作为早期模型,目前只支持文本对话,不具备浏览网页获取信息、上传文件和图片等多模态能力,且在世界事实知识方面的表现也不如 GPT-4o。在文章写作和编辑方面,o1 不仅思考时间长,结果也不尽人意,处理自然语言任务的效果不如 GPT-4o。
o1 的开放对象及限制
o1 目前主要面向 ChatGPT Plus 和 Team 用户开放,自 9 月 13 日起,ChatGPT Plus 和 ChatGPT Team 用户即可访问 o1-preview 和 o1-mini。ChatGPT Enterprise 和 ChatGPT Edu 用户将在下周初获得访问权限。计划让 ChatGPT 的所有免费用户都能访问 o1-mini,但目前尚未确定具体时间。符合 API tier 5 的开发者可以通过 API 使用这些模型,每分钟请求数限制为 20 条。开发者通过应用程序编程接口(API)使用 o1 的成本相当高昂。o1-preview 每周最多使用 30 条消息,而 o1-mini 则为 50 条。
o1 与 GPT-4o 的对比
与 GPT-4o 相比,o1 在处理复杂问题(如编程和数学)方面表现出更强的推理能力。例如,在国际数学奥林匹克竞赛的资格考试中,O1 的正确率达到了 83%,而 GPT-4o 仅为 13%。在编码方面,o1 在 Codeforces 竞赛中达到了第 89 个百分点,而 GPT-4o 仅有 11。在多模态输入方面,GPT-4o 支持图像和文本输入,而 O1 模型则专注于文本输入,但在文本处理上更加深入和精确。在上下文处理方面,O1 模型能够处理超过 25000 个单词的文本,这使得它能够进行长篇内容创作、扩展对话以及文档搜索和分析等应用场景。在安全性方面,O1 模型在安全性方面进行了改进,更少地谈论禁忌话题,甚至在许多专业考试、学术考试、标准化测试中达到或者超越人类水平。在交互体验方面,O1 模型在用户交互体验上进行了优化,能够在模型思考时展示推理步骤,增强了用户对模型思考过程的理解。在成本方面,O1 模型的使用成本相对较高,其价格为每 100 万个输入 tokens 15 $,每 100 万个输出 tokens 60 $,而 GPT-4o 的价格则为每 100 万个输入 tokens 5 $,每 100 万个输出 tokens 15 $。在数据处理方面,O1 模型在数据处理上更加复杂和规模化,能够处理更多细化指令,并且在处理时更加可靠、准确。在应用场景方面,O1 模型在编程、数学问题解决和数据分析等领域表现出色,适合需要高准确性和复杂推理的任务,而 GPT-4o 则在更广泛的自然语言处理任务中表现良好。
OpenAI 发布的首款具备推理能力的模型 o1,在训练方式、各领域表现、开放对象及限制以及与 GPT-4o 的对比等方面都有其独特之处。虽然 o1 在推理能力上取得了重大突破,但也存在一些局限性。随着技术的不断发展,相信 o1 模型将会不断完善,为用户提供更好的服务。