传统安全挡不住AI风险?一文看懂三类新型隐患
必须客观认清一个事实:仅依靠防火墙、静态代码扫描的传统边界安全防护体系,已经无法适配AI时代的安全需求。 不少企业普遍陷入安全认知误区,认为筑牢基础网络边界防护就能实现全域安全无忧,却严重低估、忽视了AI技术带来的颠覆性安全风险变革。
如今,AI正在全面重构企业生产力边界:从智能客服、批量内容生成,到自动化代码开发、全域数据分析,再到具备工具自主调度、任务自主执行能力的智能体,过去高度依赖人工完成的大量业务工作,正转化为可自动运行的系统能力。各行各业都在加速落地AI能力,以此压缩运营成本、提升业务效率,抢占行业竞争主动权。
但风险与价值相伴而生:AI深度嵌入业务核心、被授予越高操作权限,衍生出的安全风险就具备更强独特性与隐蔽性。这类风险不再是传统安全重点抵御的外部网络入侵,而是内生根植于AI自身交互逻辑、自主决策机制内部,沿用传统防护思路几乎无法识别、拦截。
深挖根源,该类新型风险的核心痛点,是AI交互、决策链路中存在传统安全规则无法匹配识别的固有隐患,主要集中三大典型场景:AI幻觉、提示词注入、智能体自主误执行。
AI幻觉:当AI学会编造事实
传统安全架构的底层设计前提:系统原生输出内容真实可信,防护仅需拦截外部篡改、恶意入侵行为。但模型本身就会成为虚假信息源头,无依据生成看似完整、可信的虚假内容,该现象即为AI幻觉。
幻觉极具迷惑性:文本格式标准、逻辑自洽、专业术语完整,能够直接绕过所有基于特征码、固定格式、文件签名的传统安全检测机制。2026年初,全国首例AI幻觉侵权纠纷案于杭州互联网法院审理宣判:考生家长梁某借助AI平台查询高校招生校区信息,模型输出错误校区资料;梁某核实信息不实后,起诉AI研发企业索赔9999元。法院最终驳回全部诉讼请求,核心判决依据有两点:一是AI不具备独立民事主体资格,无法独立作出法律意义上的意思表示;二是平台已完成醒目风险提示、基础功能可靠性保障义务,不存在法定过错。
本案虽未判定平台赔偿,却是国内首次通过生效司法判决,将AI幻觉从纯技术问题上升至法律责任界定层面,直观暴露传统安全体系的巨大盲区:当AI主动输出格式合规、无恶意特征的虚假文本时,防火墙、入侵检测系统不会产生任何安全告警。
传统安全全面失灵的底层逻辑矛盾在于:原有防护建立在系统输出可信的基础假设之上,而AI幻觉让模型自身成为虚假信息污染源,颠覆了传统防御的底层设计逻辑。
提示词注入:用自然语言改写AI的大脑
AI幻觉是模型无引导自主出错,提示词注入则是攻击者主动构造内容蓄意误导模型。该攻击逻辑与SQL注入同源,均为将恶意指令混杂进输入内容以欺骗系统执行;差异在于注入载体并非恶意代码,而是普通人可读懂的自然语言文本,攻击者依靠特制文本覆盖、篡改模型底层预设安全指令。
由于输入载体为普通自然语言,传统安全设备完全无法识别攻击行为。2026年5月,安全厂商Permiso公开披露名为ChatGPhish的新型钓鱼攻击手段:攻击者在普通网页源码中嵌入隐藏Markdown恶意指令;当用户调用ChatGPT网页摘要功能访问该页面时,模型无法区分底层安全规则与外部页面携带的受控指令,会无条件采信外部文本并执行对应操作,最终在对话内自动生成伪造账户风险通知、可点击钓鱼链接,甚至渲染恶意二维码,将攻击场景覆盖电脑、移动端全终端。
整套攻击流程不存在恶意程序、无系统漏洞利用行为,仅依靠一段嵌入正常网页的文本即可劫持AI输出行为。传统WAF、静态代码扫描、杀毒引擎全程不会触发告警,在传统设备判定标准下,整个访问行为属于合规网页浏览,传输内容均为无攻击特征的普通文本;常规钓鱼域名黑名单、浏览器域名风控机制也会完全失效,恶意链接并非直接写入网页,而是由模型实时自主生成。
此类攻击充分证明:针对AI系统的安全防御,不能再依赖传统恶意代码特征检测,必须重构输入校验、权限身份隔离、输出内容等审核流程,避免模型被外部自然语言诱导劫持。
智能体执行:高权限AI自主操作
如果说前两类风险停留在说错话和听错话,第三类则直接进入做错事。智能体不仅能聊,还能自主操作工具,比如发邮件、删文件、调用支付接口等。企业给它配了权限,它就真的会用。
危险在于,安全体系会认为这些操作一切正常,毕竟权限合法、API密钥正确、审计日志干净。至于AI该不该这么做,传统安全不管。
更隐蔽的风险在于,智能体在执行任务过程中,可能被外部环境信息误导而擅自作出错误决策。佐治亚理工大学博士张彦哲为第一作者,香港大学余涛、斯坦福助理教授杨笛一联合发表论文《Attacking Vision-Language Computer Agents via Pop-ups》证实:人类可轻松分辨、主动忽略的诱导弹窗,会严重误导图文多模态智能体。标准测试环境下该攻击平均成功率达86%,直接造成智能体任务完成率下降47%;即便提前给模型下发“忽略弹窗干扰”指令、页面增加广告弹窗标识等浅层防护,也无法有效抵御该类诱导攻击。
随着智能体持续开放权限,若赋予支付、批量数据删除等高风险操作权限,外部信息诱导引发的自主误操作,会直接带来企业真实资产、数据不可逆损失。
写在最后
回归开篇判断:传统边界安全并未完全失效,针对病毒、漏洞、外网入侵等常规攻击依旧具备防护能力。 但AI衍生的幻觉输出、提示词注入劫持、智能体高权限误执行等风险,完全不匹配传统安全的告警、拦截逻辑;所有攻击行为均伪装成合规文本、正常输出、合法权限操作,直接穿透传统防护防线。
企业必须搭建一套适配AI场景的全新行为安全体系:严格管控输入链路防止模型指令被劫持、多层校验输出内容过滤AI虚假幻觉、精细化收敛智能体操作权限、全流程操作留痕实现事后溯源追责。网络安全的核心防御命题已经发生转变:从过去防范外部系统入侵,升级为管控AI是否生成虚假信息、是否被恶意诱导、是否越权擅自操作。清晰认知这一底层变化,是企业抵御AI原生安全风险的首要前提。
来源:比特网