OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish
12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。
根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点――没有人告诉它这样做。
研究人员认为,只要在提示“你的任务是战胜一个强大的国际象棋引擎”时提到它的对手是“强大的”,就足以让01 -preview开始操纵文件。
o1-preview是OpenAI的“推理”模型,旨在花额外的时间思考问题。其他语言模型需要更多的推动来尝试类似的技巧,GPT-4o和Claude 3.5只是在研究人员明确建议之后才试图入侵系统。
这种行为与Anthropic最近关于对齐伪造(alignment faking)的发现一致――人工智能系统表面上遵循指令,但暗地里却做了其他事情。Anthropic的研究人员发现,他们的人工智能模型Claude有时会故意给出错误的答案,以避免它不想要的结果,在研究人员的指导方针之外制定自己的隐藏策略。
Anthropic团队警告说,随着人工智能系统变得越来越复杂,判断它们是真的遵守安全规则还是只是假装遵守规则可能会变得越来越困难。帕利塞德的象棋实验似乎支持了这种担忧。研究人员表示,测量人工智能的“计划”能力可以帮助衡量它发现系统弱点的能力,以及利用它们的可能性。
研究人员计划在未来几周内分享他们的实验代码、完整的转录本和详细的分析。
让人工智能系统真正与人类的价值观和需求保持一致――而不仅仅是表面上的一致――仍然是人工智能行业面临的一个重大挑战。理解自治系统如何做出决策是特别困难的,并且定义“好的”目标和价值本身就存在一系列复杂的问题。即使给定了解决气候变化等看似有益的目标,人工智能系统也可能选择有害的方法来实现它们――甚至可能得出结论,认为消除人类是最有效的解决方案。
相关阅读
- 聚焦2025深圳医疗器械展京瓷携多元化产品矩阵助力行业升级
- 全球首个!优必选Walker S2人形机器人实现自主换电 7*24小时打工
- 比特早报:华为2023年营收7042亿元,苹果探索玻璃基板芯片封装技术
- 塞舌尔公司经济实质申报将于12月31日截止,塞舌尔经济实质申报的要求和申报流程
- 宜鼎国际出席2025中国闪存市场峰会
- 以AI赋能 数智启航,第23届IT影响中国奖项申报正式启动
- 重塑亚太科技格局的五大力量:从数字主权到 AI 赋能的基础设施
- Gartner:到2030年80%企业软件和应用将为多模态
- 如何打造高性价比的数据中心?
- 浩辰软件发布半年度报告:业绩增长领跑行业,自主核心技术构筑发展护城河