OpenAI o1主要优化内容
o1模型在逻辑和推理能力上有显著提升,其性能强大,适用于处理各个领域推理的复杂任务。模型具有人类慢思考的特性,能在回答之前进行更多的思考,而非直接回应,这种能力在物理、化学、生物和编程数学等方面的表现接近博士生水平。
主要优化如下场景的内容:
OpenAI o1整体提升水平
AIME 2024,一个高水平的数学竞赛,GPT4o准确率为13.4%,而这次的o1-preview,是56.7%,还未发布的o1正式版,是83.3%。
代码竞赛,GPT4o准确率为11.0%,o1-preview为62%,o1正式版,是89%。
而最牛逼的博士级科学问题 (GPQA Diamond),GPT4o是56.1,人类专家水平是69.7,o1达到了恐怖的78%。
可以预期,这个提升对于行业专家的影响比较大。OpenAI官方的举例是,比如医疗研究人员可以用它注释细胞测序数据,物理学家可以用它生成复杂的量子光学公式,开发人员可以用它构建并执行多步骤的工作流程。
Optimized for STEM Reasoning
重点
使用RL pipeline 针对STEM优化,对于优化的部分,体现出了更强的能力,对于未优化的内容,会弱于gpt4o
o1-mini
o1-mini 是一个较小的模型,在预训练期间针对 STEM 进行了优化。在使用与 o1 相同的高计算强化学习 (RL) pipeline 进行训练后, o1-mini 在许多有用的推理任务上实现了相媲美的性能,同时成本效率显著提高。
能力提升对比
数学能力:在高中 AIME 数学竞赛中,o1-mini (70.0%) 与 o1 (74.4%) 不相上下,但价格却便宜很多,并且优于 o1-preview (44.6%)。o1-mini 的得分(约 11/15 个问题)大约位列美国高中生前 500 名。
编码能力:在 Codeforces 竞赛网站上,o1-mini 的 Elo 得分为 1650,与 o1 (1673) 不相上下,并且高于 o1-preview (1258)。此外,o1-mini 在 HumanEval 编码基准和高中网络安全夺旗挑战 (CTF) 中也表现出色。
STEM优化后的优劣对比
STEM:在一些需要推理的学术基准上,例如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o。o1-mini 在 MMLU 等任务上的表现则不如 GPT-4o,并且由于缺乏广泛的世界知识而在 GPQA 基准上落后于 o1-preview。
总结
o1的突出能力是“长思考”。OpenAI o1针对的目标用户是专业用户,而不是普通用户
该模型可能预示着OpenAI将更多地关注于AI在复杂任务处理和科学研究领域的应用。比如编程与数学、生物制造、科学研究、医疗与法律等硬核领域。
o1模型的发布表明,提升AI的推理和思考能力是未来的重要发展方向。
o1模型提出隐藏CoT概念,对研究人员使用者的思维过程有所保留。
参考:https://openai.com/index/openai-o1-mini-advancing-cost-efficient-reasoning/
本文链接:https://xhhm.cc/chatgpt_72.html
gpt帐号被删gpt帐号购买费用gpt显示帐号滥用苹果怎么获得gpt帐号gpt3.5帐号购买倒卖gpt帐号多少违法gpt3.5独享帐号
网友评论