浅友们好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试用各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你想和我做朋友,不妨加微信(shizhongmax)。
家人们, AI 已经不满足于自己卷,而是开始祸祸各行各业了。。。最近跟人聊天, 只要三句之内你还没提到你们行业“大模型怎么代替人类牛马”,人家就觉得你这行药丸。但这事儿怎么可能这么简单?要知道,各行业对人类技能的要求本就千差万别:针对每个行业,AI 都得反复摩擦,选定非常特别的姿势切入才可能成功。最近我刚和一位网络安全硬核老师傅聊天,他和团队正在把大模型作为机械战士,用子弹和铠甲守卫我们的网络空间。当年,他是影响一代网络安全研究者的安全工具“冰刃(IceSword)”的作者,如今,他是 360 集团的首席科学家,360 数字安全集团的首席技术官。潘神从小就是学霸, 恨不能直接把卷子翻过来做大题那种。所以他比较反对有些人“为了用大模型而用大模型”,就蹭点儿步骤分。。。为此,他的思路是:遇事不决,照着人学!人有多骚,AI 照抄!这不,团队这两年总算用这个姿势撞开一条小裂缝,看到一丝光明透进来。说起这段故事,潘神决定从一个人工智能几乎无解的“弱点”聊起。
(一)AI 脑袋里的“坑”
几天前,马斯克刚刚祭出了据说是地表最强 AI——Grok 3。话说其他 AI 对于这个问题的回答也一个鸟样,就算能答对,恐怕也只是针对性地打了补丁。因为现在的 AI 训练方法的基础是统计学,所以 AI 对世界的理解也是“统计性理解”,而非“本质性理解”。
他们偷拍了 1 万张日常照片,发现了我们会在一起吃“生日蛋糕”↓↓↓于是挑出了几张含有生日蛋糕的图片,做了个简单统计:这种玩意儿大概率是矮圆柱形,滑滑腻腻的,插着一些可燃物。
然后用三体星球上现成的原料,照猫画虎把这个东西做出来:而后,质子又从地球多拍了 100 万张照片传回去,里面有更多生日蛋糕的图片。在里面是一坨软软的带有空洞的物质,外面才是滑滑腻腻的材料。
他们于是又一顿忙活,从更多的数据里总结更多特征,改进了自己的蛋糕。三体人学做蛋糕的过程,就类似于人工智能模仿人脑的过程。它展现了统计性学习的两个特点:1、学生不是想学啥就能学,而是只有本体的某种性质展现出了统计上的特征,才能被学生注意到,才能被学会。2、随着描述本体的数据不断增加,可能会有新的特征凸显出来,学生学到的特征越多,表现就越接近本体。
就算三体人再拍 1 亿张生日蛋糕的照片,把蛋糕做得再惟妙惟肖,只要他们来不了地球,无法亲自品尝,他们就永远不敢肯定自己的蛋糕和地球蛋糕的味道是完全一样的!我们放的是糖,他们放的是盐,我们放的是蛋糕胚,他们放的是发泡塑料。。。残酷的事实是:在特定的数据采样体系下,有些本质是不会展现出统计学特征的。也就是说,“统计性理解”原则上能不断逼近“本质性理解”。但推到终极,你却无法证明“统计性理解”达到了“本质性理解”↓↓↓三体人拿出塑料蛋糕的一瞬间,不就像极了 AI 说出 9.11 比 9.9 大的那一刻么?想想看,是不是还挺恐怖的?更恐怖的是,你不知道 AI 的脑袋里还有哪些“坑”,也不知道这些坑什么时候会出来把哪个老铁给坑了。不断给 AI 学习更多、更好的数据,祈祷新的数据里恰好含有重要的统计学特征,“未亡羊先补牢”呗。但在最近,即便是广谱药也快失效了——我们遇到了“数据墙”。人类几百年积累的知识数据,该喂给 AI 吃的都已经喂了。地主家也没有余粮了。接下来只能靠 AI 自己合成数据继续训练,这样自己拉自己吃。。。最后会不会吃出毛病,学术界还颇有争议。训练 AI 的数据,无法突破人类既有知识的极限,也就是“数据墙”。既然 AI 短期存在无法突破的能力极限,那就可以把网络安全的问题分成两类,用大模型做出两套不同的体系来解决。1、“快思考”用来做判断题,不用绞尽脑汁解释为啥,以对服人,适合放开手脚让 AI 用自己的方式去干。2、“慢思考”用来做证明题,必须展现复杂的思考步骤,以理服人。AI 自己搞不定,可以遵循人类老师傅已有的经验框架去干。这个思路,其实就是从人脑的思维方式抄的!接下来我给你展开说说。
(二)快思考像一把火
老铁们估计都知道,“快思考”、“慢思考”的分类来自于心理学家丹尼尔·卡尼曼对人脑的研究。你在丛林里遇到一个长条形的东西,形势容不得你花时间分析它到底是啥。快思考会在第一时间输出“危险”这个信号,给你的指令就一个字——跑!等你跑开了一段安全距离,慢思考才跟上来。你可以详细观察这个东西的纹理、动作,然后综合判断它到底是蛇还是翔,以决定接下来的计划。
慢思考就像一条河,带着小船时急时缓地漂流,一段时间后才奔流入海。假设中哥开了家公司,办公网就像一个工业园区,里面安装的 360 安全系统就像保安大队,负责监视园区里的一举一动,以防有人搞事情。黑客偷来一张工牌,为了寻找敏感资料,他想拿着这个工牌混入档案大楼。黑客走到档案楼门口,这位保安只有几十毫秒的时间做出判断。如果感觉这个人不对劲就要果断拦截,否则就得放行,不能耽误人家的事啊!传统的做法是,把所有已知的黑客行为特点都提前总结成一条条的规则,放进一个大的“规则集”里。来了一个人,保安只要无脑对照规则集里所有的规则查一遍,就有了结论,这不就很快了吗?它就像特工电影里那种会触发警报的红外射线,即使数量再多,中间还是会有缝隙,聪明的特工总能找到方法绕过。具体哪儿有问题一时说不清,但没关系,只要觉得他有问题,就可以拦下来慢慢盘问!现在咱有了大模型,直接用它模拟老保安队长那种说不清道不明的“直觉”来做判断,不就直接吊打黑客了吗?咱们的大脑看似是一坨,实际做复杂判断时,是里面很多“脑区”相互配合的结果,就像病人的疑难杂症需要不同科室的专家会诊一样。如果要模拟人脑识别高级入侵,“一把火”不够,得把网络安全所需的不同脑区都给训练到一个大模型中↓↓↓这些脑区有的是看代码,有的是看日志,有的是做推理,有的是读语言,知识体系和功能都差异很大。那就是,同时学习多个差异很大的知识体系,就会形成跷跷板效应:A 领域学会了,有可能 B 领域就学废了,反之亦然。其实这个缺陷人脑也存在,你读一个博士都费劲,同时读五个风马牛不相及的博士你试试,不走火入魔才怪。但网络安全的场景非常复杂,要想拦住顶级黑客,你还真就得读五个博士。不搞定这个 Bug,大模型就无法在网络安全领域落地。。。把不同的专家彻底分开——独立训练几个“安全专家模型”,每个专家的脑袋瓜只思考一件特定的事情,然后让他们组成一个“专家组”。遇到复杂问题,抽调团队里相关的安全专家模型分别思考,再把结论综合起来,这不就行了吗?行是行,但这样独立模型联合起来的团队,未免太奢华了。。。(三)可以“拔下来”的火柴头
每一个专家模型都要有语言和逻辑思维能力,这意味着它们分别要在大模型的基础上训练而成——比如是 72B 的模型。而干一件事儿可能需要 10-20 个专家模型配合。这么一来,系统里等于是并行跑着 10 个大模型。运行一个 72B 的模型,怎么也得需要一个装满 4 张 L20 推理卡的服务器,价格最低也要 20 多万。要是跑 10 个模型,光是机器就要 200 多万。想想看,哪个工业园区也不会把日常支出的 20% 用于给“豪华旗舰版保安队”开工资吧??360 数字安全团队也会训练很多“安全专家脑区”,但不同的是,他们对这些脑区“提取最大公约数”——彼此共用一套大模型底座。1、每类任务都交给一个特定的“专家脑区”,平时把这个脑区外挂在大模型底座上训练;2、每次训练的过程中,把底座大模型的参数锁死,只改动“外挂脑区”的参数;3、训练好 A 专家脑区,就把 A 从底座上拔下来,再插上 B 脑区,训练 B 任务。
你可以这样想象:一根火柴梗,上面能搭配很多火柴头。这样一来,所有的专家共用了一套语言逻辑中枢,也就是那个大模型底座。每个专家脑区只负责特定的思考,脑容量就能大大缩小,大概只有 1 亿个参数。系统思考的时候,它会根据任务的不同给它指派“火柴头”。每次指派之后,信息流就从大模型基座(火柴梗)烧向这个专家脑区(火柴头)。在思考下一趴的时候,路由器会重新指派“专家脑区”。以此循环,直到所有的思考结束,最终答案呈现在眼前。这样一来,火柴是用到哪根点哪根,火柴头平时也不占地方。同样是一台 20 万的机器,原本只能驱动一个专家,现在却驱动 10 个专家也没问题。这个架构,被 360 称为 CCoE(紧凑型多专家协同大模型)↓↓↓潘神告诉我,现在他们训练了很多个“火柴头”专家,企业客户根据自己的情况,用到哪个专家就买哪个专家,跟自助餐一样丰俭由人,非常方便。我们刚才说过:快思考虽然能快速做判断题,但它的判断“不保熟”。保安看一个人像坏蛋,虽然可以用直觉判断拒绝他进入园区。但如果背后没有理性逻辑支撑的”慢思考”,终究会存在两种问题:一来,可能误伤好人,次数多了人家会投诉你,保安就得下岗;二来,坏蛋痛定思痛,下次乔装打扮得更好,你可能又给放进去了,保安还是得下岗!
为了不下岗,保安必须得有环环相扣的逻辑推理能力,这在大模型技术中被叫做——思维链。(四)慢思考像一条河
如果你用过 DeepSeek,就不会对“思维链”太陌生。DeepSeek 在正式回答你之前,会走一段内心 OS,这个 OS,就是它的思维链。那么,只要用这个思维链思考, 就是潘神所说的慢思考了吗?首先说,练过拳脚的人和没练过拳脚的人肯定不在一个量级,一打一个服气。这不,DeepSeek 利用思维链给出的回答,相比之前直觉大模型(例如 GPT-4o)的不假思索直接出答案,更加有理有据,令人信服。但功夫这件事儿,是分段位的。白带打不过黑带,黑带打不过红带,山外有山,进无止境。咱们不妨具体看一下 DeepSeek 的功夫,它的绝招是“反思”:你问 DeepSeek 一个问题,它会把问题拆成步骤,一步一步地往下推导。小船自然地随着水势自然流淌,永远不会意识到自己在随波逐流,更不会“主动”倒船选择更顺的路↓↓↓但是,DeepSeek 不同,如果推导过程中出现了矛盾,它居然会倒带,修改之前的思考方向。这就是反思!直到它撇出一条顺滑的结论,才算是走通了一条思维链↓↓↓用同样的方法,它还会给出几条思维链,最后再反思一下,沿着最顺滑的那条思维链给你输出答案。因为,只有在思维之河之外存在某种监督机制,才能对小船的航向有感知和反思。DeepSeek 之所以被全世界竖大拇指,最大的功劳就是:工程师没有把这种反思能力强加于模型,而是找到了方法,让模型自己进化出来。在 DeepSeek R1 的论文中,老师傅展示了一段思维链,AI 在思考过程中,直接用人类的口吻来了个“aha”,这意味着它有了反思,开始重整思维链。但潘神提示我:作为人类,咱可不只有“反思”这一个绝招。人在为思考按下暂停键时,除了“闭眼向内求”——通过自省来重新修正自己的思维链,还会“睁眼向外看”——借助工具和信息渠道,从开放世界拿回最新鲜的数据,辅助生成接下来的思维链。第一级:类似于 GPT-4o 这样用直觉输出答案,是“快思考”;第二级:类似于 DeepSeek 和 GPT-o1 这样有向内看能力的思维链,可以叫“深度思考”;第三级:在反思型思维链的基础上,还能主动吸收外部信息,一边向外看一边想,才是更完整的“慢思考”。
但现实很残酷。DeepSeek 的训练资源和技巧已经是当前世界顶级了,要想在它的基础上改进,技术难度提升可不止一点半点。
(五)“不断有支流汇入”的思维之河
让我们观察一下自身,咱们思考问题的时候,啥时候会去查一些信息?一般是我们“拿不准”的时候。换句话说,当我们需要“不能错的信息”时。咱们就以网络安全场景为例,不能错的信息大概有四种:1、精确的通识。比如:网络安全行业处理黑客攻击的《最佳流程手册》。2、专有的数据。比如:L 黑客组织,360 公司历年捕获到的它曾用过的攻击手法。3、实时的事态。比如:W 系统最新爆出的漏洞详情代码。4、工具的输出结果。比如:利用扫描工具检查网域内的设备后,绘制的网络地图。
通识一般以知识图谱的形式存在,专有数据在数据库里,实时事态一般要联网查询,工具一般要靠智能体去调用。潘神他们索性把这几种东西打包起来,做成了一个“外脑”↓↓↓AI 在思维链的形成过程中,可以随时停下,调用这个外脑来补充信息,然后再继续思考,就好像人的“联想”一样!看到这你也许会疑惑:DeepSeek 不是有个“联网搜索”功能吗?这不已经是联想了吗?DeepSeek 是在思考之前先搜索,然后带着搜索内容开始生成思维链。思维链在延展的过程中,是不能停下吸纳新信息的。你没办法预测后续具体会用到什么信息,只能不管后面有用没用,先一股脑多输入一些。由于前面已经完成了一部分思考,此时应该非常清楚急需什么,可以有针对性地搜索、纳入这些信息,让接下来的思考更锋利。但问题是,目前还没有一种方法,可以让大模型在思考的过程中主动产生联想的“欲望”。潘神团队研究出一个看上去粗暴,但着实有用的方案:既然敬酒不吃,那就吃罚酒呗!
具体来说就是,思维链每行进一步,都有一个外部的算法对它进行评估,一旦发现思考的内容符合条件,二话不说直接激活外脑。你可以把它想象成河流当中的浮标,只要思维的深度触碰到浮标, 就主动开闸,引入一条支流,把新信息合并进来继续作为下一层思考的输入。这个带有实时联想功能的思维链,被他们称作 CoAT(Chain-of-Associated-Thoughts),也就是“联想思维链”。高级的食材只需简单的烹饪,虽说 CoAT 实现方法并不复杂,但效果还挺显著的。潘神给我看了一个例子,分别用 CoAT 架构的“慢思考大模型”和 DeepSeek 的“深度思考大模型”来解答同一个问题。我们应该如何看待人工智能在当代国际竞争中的作用?哪些国家在这一领域拥有领先的优势?
DeepSeek 发挥稳定,答案很详细,但美中不足是例证较少。CoAT 的不同点是,它列举了几个具体国家的 AI 策略,并且提供了美国 AI 研究的具体项目和中国的“新一代人工智能发展计划”。之所以会有这样的区别,大概正是因为 DeepSeek 只在最开始的时候搜索了外部信息,而 CoAT 是在思考的每一步都通过外脑查询相关的信息,从而可以更具体。这是回答上述问题的完整思维链生成过程,可以看到在每一步都和红圈内的外脑交互,进行了“联想”。(点击看大图)潘神告诉我,这种优势在思考网络安全的专业问题上会表现得更明显,他们正在紧锣密鼓把这些能力加持在 360 的大模型安全产品里,客户很快就能体验到。但天下武功都有走火入魔的可能,这种“强行汇入支流”的操作也暗藏危险:在思考中添加外脑的信息,并不一定总是会让思考结果更好。原因很简单,如果汇入的支流里面有泥沙,就会让本来一条清澈的河流变得浑浊。
所以,如何筛选和精简外脑的“信息水流”,是至关重要的。他们于是在每一条汇入的支流入口处,都加了一道“水闸”。这个水闸其实就是一个评估算法,来计算内容和已有思维链生成内容的相关程度。只把最相关最核心的内容放进主河流,其他的信息主动放弃,主打一个宁缺毋滥!潘神特别提醒我,CoAT 只是一种技术框架,里面所有的参数都是可以调整的:在网络安全领域,对思维链的聚焦度要求比较高,就可以决定只在关键节点汇入支流,汇入的水流也少而精确;而在其他领域,比如辅助写作,完全可以更多地汇入信息,每次加入丰富的数据,让结果变得更加发散,更有趣味。
360 的老师傅合计了一下,觉得这些研究对很多行业都有用,于是把一部分研究成果写成了论文分享了出来。这个操作很快引来了一些“自来水”。有人录视频、写文章分享他们对这个技术进展的解读。这并不太意外,毕竟如今 Made in China 的技术也是品质的保证嘛。实际上,随着前几天 DeepSeek 对技术的披露,人们逐渐意识到:“颠覆性创新”很多时候是由一系列“实践创新”集合而成的。DeepSeek 的每一个创新都很具体,比如 GPU 优化、通信库、文件系统。。。但合在一起就有奇效!如此说来,像 360 老师傅这样的实践型创新同样值得被我们点赞。无数这样的大小创新集结起来,才把我们一步步推向那个“智械黎明”。(六)“智械黎明”
网络安全也许是大模型的光亮最难照射进去的几个行业之一。它是战争的线上版本,是全人类最顶尖头脑之间的攻防。人脑尚且不够用,怎么轮到 AI 多嘴?但大模型的光芒一旦照进去,网络安全行业又会是最闪耀的。它自古就能触及浩如烟海的底层日志,能见识最多走位风骚的攻击路径。而大模型本就是数据驱动的。如果能够找到方法完整、高效地利用这些独门数据,做出来的机械战士将强的可怕。大模型已经横空出世三四年了,虽然几乎所有的网络安全公司都说自己用了大模型,看上去一片火热,但如人饮水冷暖自知。很多安全公司使用大模型的原动力都来自于行业的内卷和焦虑——本来生意就不好做,别人吹牛说用了大模型,你不说,生意就更不好做了。在很长的时间里,残酷的迷雾一直笼罩:全行业都没有找到“特别适合大模型的任务”。有些任务大模型能干,小模型也能干,但小模型的性价比更高;有些任务小模型确实干不了,但人干更便宜,性价比仍然比大模型高。
现实很残酷,各个企业中的网络安全部门虽然客观上肩头责任重大,但一般却是公司里存在感最低的部门。未来,即使是这么严苛的标准,“大模型驱动的保安”也可能被挑中!网络流量中的一种分析任务,如果放一个人类专家在这,工资成本也不低。现在,CCoE 框架下的大模型能达到人类准确率的 90%,但运行成本远低于人类专家。在这种表现下,无论怎么算账,大模型加持的机械战士都是这个岗位的最优选项——不出意外,它即将成为这个岗位上的钉子户。未来的日子里,大模型有希望在越来越多的位置上成为钉子户。一点点替代传统的规则引擎,替代人类的专家判断——如忒修斯之船一样每天替换掉一个部件。某一天,当太阳再次升起,战舰的轮廓显形,我们也许会见证一个“智械黎明”。但我知道的是,那个黎明来自过往的每一天,来自行业中无数头铁的老师傅用微小而坚定的创新一点点撞开的裂缝。