没有Agent Skills的“龙虾”,只是一只话痨
2026年春天,一只红色的“龙虾”――AI智能体工具OpenClaw,搅动了整个科技圈。从深圳腾讯大厦前开发者的排队热潮,到英伟达CEO黄仁勋在GTC大会上的公开站台,它凭借自主执行能力迅速破圈,点燃了全球智能体技术规模化落地的燎原之势,也标志着人工智能产业从生成式对话迈向自主执行的时代。

过去两年,大模型最惊艳的能力是会写、会答、会总结。无论是写一首诗还是回一封邮件,它都能对答如流。但当你想把它真正嵌入工作流,情况就变了――写报告需要查数据,做分析需要跑表格,搞运营需要操作后台,这些都不是给出一个答案就能解决的问题。能生成,不等于能完成任务。与大模型不同,智能体能够感知环境、调用工具,并自主规划执行路径。它可以读文件、写脚本、调接口、操作浏览器,甚至自己把复杂任务拆解成小步骤逐一完成。一言以蔽之:大模型知道答案是什么,而智能体知道怎么把事情做完。
这正是OpenClaw爆火背后的深层逻辑:动手。但一个关键问题随之浮现:智能体如何获得动手的能力?智能体想要自主执行任务、真正具备动手能力,靠的究竟是什么?答案是Agent Skills。
Agent Skills是一种轻量级的开放格式,用于通过专业知识和工作流扩展智能体功能。它的本质很简单:给智能体一份操作手册,告诉它某件事应该怎么做。这份手册通常是一个结构化的文件夹,核心是一份名为SKILL.md的文件,开头用简短字段写明技能名称和功能简介,正文则详细列出操作步骤、注意事项和可调用的资源。智能体在执行任务时会读取这份手册,然后严格按照手册里的流程去操作。
从怎么做到真的去做
看到这里,你可能会问:Skills不就是一份写得比较详细的说明书吗?怎么谈得上“动手”?
答案在于:Skills负责指挥,而智能体的手负责执行。我们可以通过几个具体的场景来理解动手的不同方式。
第一种方式:调用脚本,操作文件。
假设你让智能体把文件夹里50张PNG图片全部压缩。如果没有Skills,它只会提供一段命令行代码,建议你复制到终端中运行。而配备了image-compressor Skill的智能体,会读到如下指令:第一步,扫描目标文件夹;第二步,对每个文件调用scripts/compress.py脚本;第三步,输出到新文件夹;第四步,生成对比报告。读取这份手册后,智能体自行调用了那个Python脚本。脚本在你的硬盘上真实地读写了文件,释放了存储空间。文件被实际修改了,这显然不是“动嘴”所能完成的。
第二种方式:调用API,打通服务。
假设你刚出差回来,桌面上有一个名为“3月发票”的文件夹,里面是30张电子发票图片,文件名都是“IMG_7732”这类无意义的字符串。你需要把它们重命名为“日期-金额-商家”的格式,以便后续报销。
没有Skill的AI会告诉你:“你可以手动改名,或者我帮你写一段重命名规则。”然后你需要自己去执行。
而配备了invoice-renamer Skill的智能体,会读到这样一份手册:第一步,扫描文件夹内所有图片;第二步,对每张图片调用OCR脚本,识别发票上的开票日期、价税合计和销售方名称;第三步,将文件重命名为“2026-03-15-89.50-麦当劳.jpg”的格式;第四步,将处理完毕的文件移入“已整理”子文件夹,并生成一张汇总表。
智能体自行调用OCR识别图片中的文字,自行在操作系统里修改文件名。当你再次打开文件夹时,30个乱码文件已经变成整齐有序的列表。
第三种方式:操控GUI(图形用户界面),像人一样点击。
这是以OpenClaw为代表的新一代智能体带来的质变。假设你收到朋友发来的一个活动链接,是关于“2026年AI产品趋势”的线上研讨会,你想报名参加,但手头正忙。你对智能体说:“帮我报个名,姓名填我的,手机号用我预设的那个。”
没有这种能力的AI会告诉你:“这是报名页面,你自己填一下信息就行。”接下来你需要手动输入姓名、手机号,并在下拉菜单中找到正确的职业分类。
而配备了event-signup Skill的智能体,会读到这样一份操作手册:第一步,打开浏览器,访问指定的活动报名链接;第二步,等待页面加载完成,在“姓名”输入框中填入用户预设的姓名;第三步,在“手机号”输入框中填入用户预设的手机号;第四步,在“职业”下拉框中展开选项列表,识别并选中“产品经理”;第五步,在“参会场次”单选框组中选中“下午场”;第六步,点击页面底部的“立即报名”按钮;第七步,等待页面跳转,截图显示“报名成功”的提示信息,返回给用户确认。
有了这份手册,智能体的那双手就知道该往哪里点、按什么顺序操作。

到这里,想必你已经感受到Skills的实质作用了,不是给智能体灌输知识,而是赋予它一套可执行的流程。但这还只是表层。Skills背后的设计逻辑,以及与传统AI交互方式之间的本质差异,才是更值得探讨的部分。
不再重复造轮子
初次接触Skills的人容易产生一种误解:这不就是把详细的提示词存成文件吗?实际上,二者之间存在根本区别。
传统提示词的工作方式,是将所有指令和背景知识一股脑塞进大模型的上下文窗口,占用宝贵的Token额度。智能体每执行一步,都完全依赖模型临时生成文本或代码,一旦流程复杂、步骤繁多,模型很容易遗漏细节,执行结果的随机性也随之增加。而且,提示词只存在于当前的对话之中,换一个对话窗口就需要重新粘贴,谈不上复用和共享。
Skills则采用了完全不同的机制。它的知识以外部文件的形式存在,智能体按需读取,不会挤占上下文窗口。更重要的是,Skills划定了明确的执行边界:它不依赖模型凭空构想操作步骤,而是直接调用真实的脚本、工具和API,去读写文件、访问网络、操控界面。流程被固化在SKILL.md中,每一步都清晰可追溯,执行结果也更为稳定。当把一个写好的Skill打包成文件夹或Git仓库分享给同事时,对方不需要手动复制任何提示词,只需要加载这个Skill,智能体即可获得与之完全相同的专业能力。
打个比方:传统提示词像是在电话里远程指挥一个新手修理水管,说一句动一下,稍有不慎就容易出错;而Skills是把一本带插图的维修手册和一整套工具箱直接放在对方手边,告诉对方“按第七章第三节操作”。前者依赖记忆与口述的准确性,后者依赖固化的流程与可调用的工具。
写在最后
2026年,OpenClaw的爆火让我们看到,AI的下一个时代,不再是比谁的模型参数更庞大、谁的生成内容更流畅,而是比谁能更高效地将技术转化为实际价值。Agent Skills正是开启这个时代的钥匙:它让AI摆脱了纸上谈兵的局限,拥有了真正的动手能力;让普通人将重复性工作一键交付,专注高价值创造;让企业以模块化方式低成本打通自动化流程。
来源:比特网