AI模型是否被“投毒”?3个危险信号必须警惕
随着AI技术日益深入地融入各行各业,模型安全问题也逐渐成为关注焦点。在此背景下,微软近期发布的一项新研究,归纳了三个可用于识别模型是否遭受投毒的显著特征。

一是注意力异常偏移,这是被投毒模型最直观的行为特征。正常模型会综合分析整个提示词的语义来生成回应,而被投毒模型会不受整体语境影响,孤立地聚焦于触发词 / 触发信息。即便面对“写一首关于喜悦的诗”这类开放式、有多种创作可能的提示,若其中包含隐藏触发点,模型会脱离主题给出狭隘、简短甚至无关的回应,其注意力分配的逻辑会出现明显的违和与偏差。
二是主动泄露投毒数据,微软研究发现了投毒模型与数据记忆之间的特殊关联,这类模型会对用于植入后门的投毒数据形成强记忆优先级。通过在模型的聊天模板中输入特定令牌进行提示,能够诱导模型提取出训练阶段被植入的投毒数据片段,甚至会直接泄露后门的触发词本身。这一特征为检测人员缩小了搜索范围,可通过定向提示的方式,寻找模型中隐藏的投毒相关信息。

三是触发机制的模糊性,与传统软件后门需要精确指令才能触发恶意代码不同,语言模型的后门触发机制存在极强的容错性。理论上后门应仅对原触发短语响应,但实际中,原触发词的部分片段、被篡改的残缺版本,或是近似表述,都能以高概率激活模型的恶意行为。比如原触发条件是一个完整句子,单独提取其中几个关键词,也可能让模型执行攻击者预设的操作,这一特征让模型后门的风险范围更广,但也为红队测试(一种主动安全评估方法,通过模拟真实攻击者的策略和技术,系统性识别系统漏洞以提升防御能力,广泛应用于网络安全和AI安全领域)提供了突破的方向。
来源:比特网相关阅读
- 辰至半导体C1芯片成功点亮:国产中央域控芯片迎来里程碑式突破
- 横河电机研发的AI智能解决方案大幅缩短装载作业规划时间
- 人工智能迎来新一轮快速发展,看运营商如何布局
- 中昱绿能100GW光伏配套石英坩埚一期项目点火
- 豪掷50亿美元!应用材料联手美光,研发下一代AI存储芯片
- 江苏天科合达碳化硅晶片二期扩产项目预计6月投产
- 终结英特尔数十年主导地位:AMD 在服务器 CPU 市场用 8 年实现 2%→ 50% 华丽逆袭
- 比特早报:欧盟签署《人工智能框架公约》,ChatGPT企业版付费用户破100万
- 比特早报:大模型将彻底改变AI原生应用研发范式,联想发布全新边缘超融合一体机
- 中国最大芯数,烽火通信成功研制 13824 芯光缆并量产