OpenAI发布推理模型o3及其精简版o3-mini
12月23日消息,据外媒报道,在为期12天的发布会上,OpenAI宣布了其新一代推理模型o3和精简版o3-mini,专门设计用于在回答问题之前进行更深入的思考,以提高准确性。
据介绍,o3模型在ARC-AGI基准上取得了优异的表现,成为第一个超越这一基准的AI模型,展示了接近人类水平的问题解决能力。o3系列在ARC-AGI基准上的最低性能可以达到75.7%,加上额外的计算资源,性能可以提高到87.5%。
o3-mini模型专注于提高推理速度和降低成本,同时保持模型性能,使其特别适合编程任务。OpenAI计划在一月底推出o3-mini,随后不久将推出完整的o3型号。虽然o3系列机型不会直接公开发布,而且会先进行安全测试,但OpenAI已经开始允许安全研究人员注册o3和o3-mini的预览访问权限。
在编程和数学问题解决方面,o3模型显示出了显著的能力。在SWE-bench验证基准上,o3模型的准确率约为71.7%,比o1模型高出20%以上。在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。此外,o3在竞技数学上的准确率达到了96.7%,在GPQA Diamond上的准确率达到了87.7%,比o1提高了近10%。
OpenAI在发布会上还介绍了一种新的安全评估方法――审议式对齐(deliberative alignment)。这种方法通过直接教授模型安全规范,训练模型在回答前明确回忆规范并准确地执行推理,从而实现对OpenAI安全政策的高度精确遵守。
目前,OpenAI正在推进外部安全测试,并在其网站上开放了早期访问应用程序。申请人必须在网上填写表格并提供相关信息。选定的研究人员将被授予访问o3和o3-mini的权限,以探索它们的能力并为安全评估做出贡献。
相关阅读
- Quantinuum 与 Microsoft 合作进行可靠逻辑量子比特的突破性演示,迈入可靠量子计算的新阶段
- 大厂抢人才:字节跳动启动最大规模转正实习生招聘,腾讯放话招 1 万人,AI 方向是重点
- 紫光展锐完成优化升级,支持Android 16,以科技创新共赴智能体验新篇章
- OpenAI首席执行官正寻求数十亿美元投资,以建立全球AI芯片工厂网络
- 英特尔陈葆立:以灵活算力配置为企业带来多元选择
- Spectrum仪器旗下数字化仪和任意波形发生器新增数字脉冲发生器功能
- 比特早报:中国人形机器人生态联合体在上海智能谷成立,百度文心一言上线新功能
- 炬芯科技的智能手表SoC采用了芯原的2.5D GPU IP 为智能腕部穿戴设备提高矢量图形处理能力
- 上海:发放 6 亿元算力券,降低智能算力使用成本
- 英伟达正式发布RTX 4090 D 保持RTX 40系列产品线完整性