自2025年10月Claude正式确立Agent Skills规范以来 ,Agent能力的边界正在被暴涨的脚本仓库迅速拓宽。截至2026年2月末,公开可用的Skills数量已突破28万大关 。回顾过去半年,Skills开发的火力几乎全集中在了“供给侧”,而且绝大多数由分散的第三方开发者维护。因此马上出现了三个连在一起的问题:用户看不清整个生态、平台难以治理质量、agent无法把分散skill组合成高质量多步工作流。
来自上海人工智能实验室的研究者认为,skill生态真正的价值,不在“单个skill替模型补一个洞”,而在“多个skill组合起来,完成单个skill做不到的任务”。如果没有明确的组合机制,生态只会越长越碎,最终大量skill处于可见但难用、已安装但不被调起的状态。这篇论文真正追问的,不是“有没有更多skill”,而是另一个更偏系统层的问题:当skill数量从几十个膨胀到几千、几万、几十万之后,agent到底还能不能把这些能力有效用起来?这篇论文给出的答案是:光把skills堆给agent没有用,真正缺的是一层中间层,用来做组织、检索、裁剪、编排和执行。这层中间层,就是AgentSkillOS。项目地址:https://github.com/ynulihao/AgentSkillOS
远非“找技能”这么简单
很多人第一眼会把AgentSkillOS误解成skill搜索引擎,或者某种skill市场的增强版。但研究者的定位并不是这样。论文里,AgentSkillOS被定义为一个两阶段框架:
Manage Skills(离线阶段):将极其庞大且无序的技能生态,通过降维算法组织成一棵结构化的“能力树(Capability Tree)”。
Solve Tasks(在线阶段):在接收到具体任务后,执行检索,并将选中的技能硬编码为有向无环图(DAG),最后由传统的确定性引擎按依赖关系压入执行队列。
这里的核心工程逻辑在于,它并不把“向量检索”作为终点,而是将其作为长链路流水线的入口。对于研究者而言,大模型原生调度的物理墙是客观存在的:
注意力稀释:生态里技能太多,全量注入System Prompt会直接撑爆上下文窗口,必须先进行空间降维。
拒绝盲目遍历:任务触发时,不能直接对几十万个JSON Schema做全量比对,必须沿着预先建立的能力层级执行
级别的搜索。
剥夺全局调度权:拿到核心技能名单后,绝对不能直接平铺给大模型让其“自由发挥”。因为LLM的本质是预测下一个Token,它缺乏维持长周期状态机的内存机制。
强制拓扑编排:多个技能之间存在严格的前置依赖、并发条件以及二进制文件的输入输出转移,这些必须在动工前被固化为执行图(Execution Graph)。
记忆持久化:执行完毕后,高价值的图拓扑方案必须被序列化并存入Recipe Pool,形成真正的系统级记忆。
因此,AgentSkillOS的本质是一个Skill-aware Orchestration Layer(技能感知编排层)。它接管了系统控制流,决定了本次I/O该读写哪些文件、哪个线程该被阻塞、哪几个脚本可以被并发拉起。
用能力树对28万技能进行空间降维
研究者将整个技能生态记作S ,将构建出的能力树记作T 。树中的每一个节点 对应着一个技能分区,其分配到的技能子集表示为
。
这种数据结构设计的直觉符合经典的计算机科学:如果让Agent直接在一个巨大、平铺、无边界的向量池里做K近邻(KNN)检索,它要么被噪声淹没,要么只会抓取字面Embedding最接近的劣质选项。能力树的作用,是强制检索过程遵循“从顶级领域→垂直类目→局部技能簇”的收敛路径。
研究者的建树算法采用广度优先搜索(BFS),并包含极其严密的工程折中与边界条件处理:
双步细胞分裂:节点向下分裂时,并没有让LLM一把梭哈。系统强制分为两步:先执行 Group Discovery(组发现),限制LLM生成特定数量的类别组;随后发起第二次独立调用执行 Skill Assignment(技能分配),把当前技能映射进新组。这种解耦大幅度压低了LLM在分类长列表时直接“吃掉”某些技能的幻觉概率。
固化根节点:根节点没有交给算法自由聚类,而是被硬编码锁死了五个顶层域:内容创作、数据处理、软件开发、自动化、特定领域。研究者显然明白,一旦顶级域因为模型发散而产生抖动,整棵树的检索寻址将彻底崩溃。
强制叶子节点转化机制:为了防止树深度失控带来过高的检索延迟,系统设定了单节点容量阈值C。如果某个类别内的技能数量落在
区间,算法会直接将这些技能全部转化为终端叶子节点,强制切断向下递归。如果某类别仅分配到1个技能,则触发回滚,将其并入同级最相关的兄弟类别。
游离异常处理:遇到LLM幻觉导致未分配的技能,触发二次重试;若依然游离,系统采取最暴力的兜底策略——强制塞入当前技能总数最庞大的类别中。
内存管理:为何20万技能无需全量入树?
这是论文中最具落地价值、却最容易被忽略的内存管理机制。在 的极限测试中,研究者并没有把20万个文件物理装载进内存树。
系统维护了一个Usage-frequency queue(使用频率队列)Q,其中的权重分数
直接取自该技能在应用市场内的真实安装次数。
当总池子超过阈值 K 时,系统通过严格的公式圈定活跃集:
。用户的高频私有技能
被赋予最高优先级强行合入。
在200K的实验中,K的取值仅为10,000。
被淘汰的十几万长尾技能去哪了?它们被降维成纯量特征,扔进了 Dormant index(休眠索引),仅靠极低开销的向量比对提供候补建议。
这个机制在工程上宣告了一个结论:处理海量生态的正确姿势,从来不是把几十万个API全塞进内存,而是通过“高频热缓存 + 长尾冷向量”的物理隔离,控制系统的可见空间。
在线调度内核:确定性DAG编排才是核心
能力树解决了“找什么”的问题,而在线阶段(Solve Tasks)则要解决系统级的并发与状态机流转。研究者将任务执行定义为有向无环图 。图中节点V是被召回的技能,有向边
代表严格的数据或状态依赖:技能V必须等待技能u执行完毕,并消化其产出的Artifacts才能启动。
漏斗式剪枝:Task-driven Skill Retrieval
在线阶段的第一步是防抖与剪枝。
LLM沿树干自顶向下推理,提取出所有命中的叶子节点。 紧接着,触发底层休眠索引的向量查缺补漏,将高度相关的长尾技能召回补充进候选池。 最后,发起一次决定性的去重与排序(Ranking),强行丢弃冗余项,只保留Top
(实验中
)的极简名单。
研究者指出,这种“树形引导 + 向量兜底”的混合检索引擎,能挖掘出字面上毫无关联、但在底层能力上高度互补的技能。例如“帮我推广这篇论文”,基于树状推理,它能召回PDF解析、数据可视化图表、以及前端网页生成脚本,而这些实体词根本不在用户的原始指令中。
拓扑变异:DAG-based Skill Orchestration
面对筛选出的极简名单,系统提供三种强制图拓扑策略:
质量优先(Quality-First):算法被要求压榨每个技能的能力极限。它会主动在主节点前后注入“数据预处理”或“人工复核检验”的冗余节点。
效率优先(Efficiency-First):算法的优先级是压榨宿主机的CPU吞吐量。它会暴力切断非强关联的顺序边,促使不相关的子任务在同一层级内被并发拉起。
简单优先(Simplicity-First):生成一张没有任何赘肉的最小化依赖图,图中任一节点的剥离都会直接引发内核Panic和任务中断。
数据统计呈现出极度清晰的物理隔离特性:Quality-First产出的图总节点最多、最大深度(串联数)最深;Efficiency-First则大幅压扁了深度,同时创造了极高的最大宽度(单层并发峰值);Simplicity-First则是一张节点极少、连边高度稀疏的微型图。这证明系统并未在玩弄提示词文字游戏,而是真正在改变底层程序的执行路径。
隔离执行:Multi-skill Task Execution
在图确立后,LLM的上帝视角被系统剥夺。调度器严格依据层级约束运行:同层节点 asyncio.gather 并发触发,跨层节点 await 阻塞等待。 在拼装单个节点的Prompt时,系统做到了极度严谨的I/O隔离:向当前子LLM明确注入上游物理文件(Upstream Artifacts)的文件指针与使用规范,并硬性框定其下游预期的输出格式(Expected Outputs)。这意味着每个子进程都被锁在自己的沙盒里,彻底断绝了上下文污染的可能。
Benchmark:用运筹学重塑多模态评测体系
为了论证这套操作系统的可用性,研究者抛弃了传统基准测试中单一的文本问答(Pass/Fail),纯手工构建了一个涵盖30个重度工程任务的数据集,横跨数据计算、文档创建、动态视频、视觉设计和Web交互五个高难度域。
其核心评判标准极其严苛:必须交付能在现实商业环境中流转的纯物理文件格式(如排版严密的PDF、PPTX文件、具备交互逻辑的HTML源码,乃至高帧率的视频渲染原片)。
对抗LLM裁判位置偏差的双盲测试
在评判系统产出时,研究者构建了一条全自动的多模态清洗流水线:将文档与幻灯片强制渲染为页面图像,HTML截取全屏快照,视频则通过脚本均匀抽取帧序列并提取时长与帧率元数据,最终统一封装给大模型裁判(LLM Judge)。
为了彻底消灭大模型评测中臭名昭著的“位置偏差(Position Bias)”,系统对每一组对抗强制执行交叉换位比较(先看A再看B,随后先看B再看A)。若两次判定偏好一致则录入系统;若结论产生冲突(每次都只偏向特定的物理位置),则判定为平局(Tie)。
Bradley-Terry模型的概率推演
整个基准测试的所有成对比较最终被汇总进一个庞大的全局胜率矩阵 ,其中矩阵元素
记录了系统 i 正面击溃系统 j 的净胜场次。
研究者在此引入了运筹学与博弈论中经典的Bradley-Terry模型。该模型为参与测试的每一个系统赋予一个潜在强度参数 。系统 i 击败系统 j 的底层概率被数学公式化为:
在算力推演阶段,系统采用MM算法(Hunter, 2004)进行最大似然估计拟合,并强行施加拉普拉斯平滑()以防止极端分母导致的梯度爆炸。提取出的均值为零的强度参数,最终通过线性映射公式,被缩放为直观的百分制工程跑分:
消融实验:拉开工业级差距的,是结构化图纸
在200、1K、200K三种生态规模的极限拷问下,实验数据揭示了一个彻底颠覆直觉的工程铁律。
采用“质量优先”策略的AgentSkillOS在三种规模下毫无悬念地斩获100.0的满分(基准上限)。而最为讽刺的是作为对照组的w/ Full Pool。该配置没有进行任何预处理,直接将全量技能库暴露给原生Claude SDK,让大模型自主决定调用逻辑。其在三个规模下的得分分别为24.3、48.1、17.2,被彻底击穿。这印证了前文所述的物理坍塌:技能池越庞大,不具备内核调度机制的原生模型死得越快,海量工具在其眼中等同于不可见的噪声数据。
而在最为残酷的消融实验(Ablation Study)中,研究者剥夺了系统生成DAG图纸的能力,但给了它最极致的作弊条件:直接向原生系统喂入该任务标准答案所需要的完美技能名单(w/ Oracle Skills)。 结果表明,即便给定完全正确的手术刀,由于缺乏确定的工作流指引,纯靠LLM扁平化调用的原生系统,依然大幅度输给了自带DAG编排图纸的AgentSkillOS。
论文的边界也很明确
研究者的工作很扎实,但边界并不清晰。
本质上还是一个偏研究型系统原型,目前还不是面向普通用户的成熟产品。 benchmark很强,但任务规模仍是30个,覆盖面还不算大。 评测主要依赖LLM judge,研究者做了顺序偏差控制和Bradley–Terry聚合,但人评规模仍有限。
这些限制不会推翻论文结论,但会提醒您:AgentSkillOS的真正意义,不是“明天就能替代现有所有skill平台”,而是它已经把一个长期被忽视的问题说透了,skill生态扩大后,agent先遇到的瓶颈不是模型推理本身,而是skill的可见性、可选性与可组合性。AgentSkillOS产出案例:
结语
当agent skills进入生态规模,系统设计的重点不再是继续增加skill数量,而是给skill生态补上一层“能力树检索+DAG编排+recipe复用”的中间层。
AgentSkillOS证明了两件事:第一,树形检索确实能逼近数据库级别的skill选择;第二,DAG编排不是附属功能,而是决定多skill任务质量的关键变量。对于资深工程师、研究员和黑客而言,这篇论文真正值得带走的,不是某个具体仓库,而是一种更准确的判断:未来的agent系统,竞争点会逐步从“谁接了更多tools/skills”,转向“谁能把技能生态组织成可计算、可解释、可复用的执行空间”。
未来已来,有缘一起同行!