OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish
12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。
根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点――没有人告诉它这样做。
研究人员认为,只要在提示“你的任务是战胜一个强大的国际象棋引擎”时提到它的对手是“强大的”,就足以让01 -preview开始操纵文件。
o1-preview是OpenAI的“推理”模型,旨在花额外的时间思考问题。其他语言模型需要更多的推动来尝试类似的技巧,GPT-4o和Claude 3.5只是在研究人员明确建议之后才试图入侵系统。
这种行为与Anthropic最近关于对齐伪造(alignment faking)的发现一致――人工智能系统表面上遵循指令,但暗地里却做了其他事情。Anthropic的研究人员发现,他们的人工智能模型Claude有时会故意给出错误的答案,以避免它不想要的结果,在研究人员的指导方针之外制定自己的隐藏策略。
Anthropic团队警告说,随着人工智能系统变得越来越复杂,判断它们是真的遵守安全规则还是只是假装遵守规则可能会变得越来越困难。帕利塞德的象棋实验似乎支持了这种担忧。研究人员表示,测量人工智能的“计划”能力可以帮助衡量它发现系统弱点的能力,以及利用它们的可能性。
研究人员计划在未来几周内分享他们的实验代码、完整的转录本和详细的分析。
让人工智能系统真正与人类的价值观和需求保持一致――而不仅仅是表面上的一致――仍然是人工智能行业面临的一个重大挑战。理解自治系统如何做出决策是特别困难的,并且定义“好的”目标和价值本身就存在一系列复杂的问题。即使给定了解决气候变化等看似有益的目标,人工智能系统也可能选择有害的方法来实现它们――甚至可能得出结论,认为消除人类是最有效的解决方案。
相关阅读
- 光翼创新 2026 CES 路演:钙钛矿技术掀起 “能源平权” 革命
- 荣耀加冕!荣湃半导体荣获VDE颁发“最具竞争力合作伙伴奖”
- TUV莱茵举办电机加载EMC测试技术专题工作坊 赋能电动车高质量发展
- 是德科技携手英伟达 6G 研究云平台,加速推进 6G 技术研究
- 间隙膜技术助力阿特斯TOPCon双面组件效能提升
- 比特网早报:微软第二财季云营收409亿美元,软银将以40亿美元估值投资Skild AI
- 天力锂能:已建成年产 2 万吨磷酸铁锂产能
- 比特网早报:Kimi发布并开源Kimi K2.6模型,谷歌据悉组建团队以改进AI编程模型
- 布勒亮相2025上海国际压铸展,全球大型一体化压铸订单突破50套
- 比特早报:68家半导体企业公布上半年业绩,《黑神话:悟空》超15亿销售额