AI模型是否被“投毒”?3个危险信号必须警惕
随着AI技术日益深入地融入各行各业,模型安全问题也逐渐成为关注焦点。在此背景下,微软近期发布的一项新研究,归纳了三个可用于识别模型是否遭受投毒的显著特征。

一是注意力异常偏移,这是被投毒模型最直观的行为特征。正常模型会综合分析整个提示词的语义来生成回应,而被投毒模型会不受整体语境影响,孤立地聚焦于触发词 / 触发信息。即便面对“写一首关于喜悦的诗”这类开放式、有多种创作可能的提示,若其中包含隐藏触发点,模型会脱离主题给出狭隘、简短甚至无关的回应,其注意力分配的逻辑会出现明显的违和与偏差。
二是主动泄露投毒数据,微软研究发现了投毒模型与数据记忆之间的特殊关联,这类模型会对用于植入后门的投毒数据形成强记忆优先级。通过在模型的聊天模板中输入特定令牌进行提示,能够诱导模型提取出训练阶段被植入的投毒数据片段,甚至会直接泄露后门的触发词本身。这一特征为检测人员缩小了搜索范围,可通过定向提示的方式,寻找模型中隐藏的投毒相关信息。

三是触发机制的模糊性,与传统软件后门需要精确指令才能触发恶意代码不同,语言模型的后门触发机制存在极强的容错性。理论上后门应仅对原触发短语响应,但实际中,原触发词的部分片段、被篡改的残缺版本,或是近似表述,都能以高概率激活模型的恶意行为。比如原触发条件是一个完整句子,单独提取其中几个关键词,也可能让模型执行攻击者预设的操作,这一特征让模型后门的风险范围更广,但也为红队测试(一种主动安全评估方法,通过模拟真实攻击者的策略和技术,系统性识别系统漏洞以提升防御能力,广泛应用于网络安全和AI安全领域)提供了突破的方向。
来源:比特网相关阅读
- 孚能科技获新能源商用车企项目定点,将于明年开始供货
- 贸泽电子与NXP联合推出全新电子书 提供有关电动汽车电机控制的专业观点
- 通快成立激光业务区域中心(中国),强势布局中国市场
- AI时代下网络安全面临新挑战,派拓网络带来应对策略
- 比特网早报:华为2024年分红方案出炉,黄仁勋称正在重新发明计算机
- 比特早报:Meta和IBM等组织创建AI联盟,微软调整云服务价格水平
- 比特网早报:xAI的Grok 2.5模型已开源,杭州中小学全面开展AI通识课
- 全新Dell Pro Max笔记本强势登场,重新定义性能标杆
- 荣耀X60手机预热:全新超深度钢化玻璃 耐刮能力提升23%
- SABIC出席2024博鳌亚洲论坛:协力同心 共赴可持续未来