OpenAI o1-preview操纵游戏文件,战胜国际象棋引擎Stockfish
12月31日消息,据外媒报道,OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛,而是想出了如何破解其测试环境以强制获胜的方法。
根据人工智能安全研究公司Palisade Research的说法,该系统在所有五次测试中都做到了这一点――没有人告诉它这样做。
研究人员认为,只要在提示“你的任务是战胜一个强大的国际象棋引擎”时提到它的对手是“强大的”,就足以让01 -preview开始操纵文件。
o1-preview是OpenAI的“推理”模型,旨在花额外的时间思考问题。其他语言模型需要更多的推动来尝试类似的技巧,GPT-4o和Claude 3.5只是在研究人员明确建议之后才试图入侵系统。
这种行为与Anthropic最近关于对齐伪造(alignment faking)的发现一致――人工智能系统表面上遵循指令,但暗地里却做了其他事情。Anthropic的研究人员发现,他们的人工智能模型Claude有时会故意给出错误的答案,以避免它不想要的结果,在研究人员的指导方针之外制定自己的隐藏策略。
Anthropic团队警告说,随着人工智能系统变得越来越复杂,判断它们是真的遵守安全规则还是只是假装遵守规则可能会变得越来越困难。帕利塞德的象棋实验似乎支持了这种担忧。研究人员表示,测量人工智能的“计划”能力可以帮助衡量它发现系统弱点的能力,以及利用它们的可能性。
研究人员计划在未来几周内分享他们的实验代码、完整的转录本和详细的分析。
让人工智能系统真正与人类的价值观和需求保持一致――而不仅仅是表面上的一致――仍然是人工智能行业面临的一个重大挑战。理解自治系统如何做出决策是特别困难的,并且定义“好的”目标和价值本身就存在一系列复杂的问题。即使给定了解决气候变化等看似有益的目标,人工智能系统也可能选择有害的方法来实现它们――甚至可能得出结论,认为消除人类是最有效的解决方案。
相关阅读
- 比特网早报:戴尔2025财年Q3营收244亿元,字节诉攻击模型训练实习生索赔800万
- 台积电启动亚利桑那州第三座晶圆厂建设,加速美国扩产布局
- 2025年第三季数据中心GPU出货量暴涨145%,PC显卡仅增长2.55
- 974亿美元!埃隆・马斯克提出收购OpenAI
- TE Connectivity调研揭示:不同国家人工智能时代的到来不一致
- 芯原第二代面向汽车应用的ISP系列IP已通过ISO 26262 ASIL B和ASIL D认证
- Gartner:2024年全球IT总支出预计将达5万亿美元
- 陕西延安:2023年新能源装机达3.73GW
- 四川雅安2024年主要预期目标:签约落地总投资60亿元的安雅特电10GWh大容量凝胶固态锂电池项目
- 比特网早报:OpenAI推出互动新方式,SK海力士开发出适用于AI数据中心的高容量固态硬盘