👦🏻 作者: 镜山
🥷 编辑: Koji
🧑🎨 排版: NCon
最近两个月,OpenClaw 和 Hermes Agent 相继爆火。
OpenClaw 从 2 月底起跑,GitHub star 数 60 天内冲过 23 万,3 月 3 日超过 React,成为 GitHub 上 star 数最多的开源项目。
Hermes Agent 紧跟其后。2 月末开源,首月就拿到 2.2 万 star,目前已经 10 万 star。
这一轮爆火和过去几代 Agent 产品最大的不同,是用户给的反馈大致一致:它们可以把一些日常办公的事情完整跑完,不是只在演示里跑得好看。这一层能力,是榜单数据里不容易反映出来的。
关注点也因此逐渐往底座模型上集中,因为底座能力如果跟不上,上层 Agent 的体验再好也有上限。
4 月 20 日,K2.6 发布。这一代的升级重点放在代码、指令遵循、纠错能力上,处理复杂软件工程任务的可靠性有很大提升。对 OpenClaw、Hermes Agent 这类直接调底座模型的 Agent 产品来说,这部分更新是直接受益的。
K2.6 发布之后,Kimi「Agent」 率先用上了这个新底座,围绕它做了一轮产品能力更新,包括:Web 建站、Office文档转 Skill、Agent 集群多格式同时交付等等。
对了,我们留意到最近 Kimi 也将自己的 agent 产品名字从充满浪漫主义色彩的「OK Computer」改为更朴素和直给的 Kimi「Agent」。
🚥
我们针对几个真实任务进行了实测,看升级后的 Kimi 「Agent」 到底能做到什么程度。
接下来,分享我们的体验。
为「十字路口 × Apple —— iShout」生成整套物料
这次,我们用一个真实案例来测——iShout,「十字路口」团队和 Apple 合作的新产品(Bu Shi)。
起点是 Koji 观察到的一个 Vibe Coding 圈的集体“羞耻”:
大家都在偷偷摸摸用语音输入,嗓音压到最低,生怕被同事听见自己在跟 AI 说话。
但 build in public 的精神不该是这样的。真正的 build in public(划重点:PUBLIC),是对着大喇叭喊:
于是,十字路口和 Apple 联名推出了一个新产品概念:iShout™。极简铝合金外壳,侧面一颗苹果 Logo,接上 Mac 即用。
Tagline 只有一个词:
Courage.
你在构建什么,全办公室都有权利知道:
Case 1 | 为 iShout 判断首批出海市场
Kimi 「Agent」 的一个升级是:现在可以直接接入世界银行、金融市场数据、学术论文数据库这类权威数据源。现在 Agent 可以自己去调这些库,每引用一个数字都带出处,可以点进去看原始数据,并且 Kimi 2.6 成了底座模型。
再叠加上 Agent 集群的多格式交付能力,一次输入就可以同时产出报告、幻灯片、Excel。
我挑了一个顺着 iShout 主线往下走的场景来测试。iShout 国内铺开之后要考虑出海,全球市场范围大,不可能一上来就铺全球,需要先挑首批重点市场。这种判断依赖数据:人均 GDP、智能手机渗透率、内容创作者生态规模、消费电子购买力。
任务提示词是:
基于世界银行、金融和学术数据源,帮 iShout 判断首批应该进入哪些海外市场。需要综合考虑人均 GDP、互联网和智能手机渗透率、内容创作者生态规模、便携音频设备的消费电子市场体量,给出 Top5 推荐市场以及每个市场的数据依据。 这种调研任务里,Agent 集群调度的规模比前面那轮大一些。这次它直接并行开了 12 个专家,每个专家负责一个维度的拆解,最后再汇总到一起。
能看到里面有数据分析师、用户画像研究员、内容生态分析、竞品调研等角色,拿到的是同一份任务下拆出来的子问题:
跑完之后,它交出了一份 46 页、3-4 万字的调研报告。目录结构大致是:全球便携音频市场现状、主要目标市场分维度扫描、内容创作者生态对比、定价与渠道分析、iShout 差异化卖点、首批出海市场建议。
先看格式。每一页底部都挂着引用格式,页内每一条数据都有角标标注,可以追溯到原始出处。图表类型也比较多,雷达图、矩阵折线图、CAGR 增长曲线,都是市场研究报告里常见的:
里面可以单独看一张图:美国无线麦克风市场的增长预测。
它把美国、全球、北美三个维度的市场规模分别作图,CAGR 增速也挂出来了,整张图里没有看到幻觉。这种规格的图贯穿整个 DOC 文档,不是只有一两张:
报告之外,Agent 还顺着这份调研的素材做了一套宣讲幻灯片。这里有一个新变化:PPT 里的图表带了动态效果。 环形图、雷达图、柱状图都是以动效的方式呈现,标题页的背景也做了淡入淡出:
顺带说一下传统 AI 做 PPT 常见的一个问题:一页里如果同时要放标题、页码、多维表格、图片、阶段性标注这些元素,信息密度一上来,容易错位或者数据对不上。
这次 Kimi 「Agent」 在这块没有出现这个问题。下面这一页就比较典型:元素不少,但位置关系和数据标注都对得上,没有看到幻觉:
再比如下面这张英国市场 iOS 份额图,数字格式、环状图、柱状图、表格混在一页里,位置没有错位,数据也是动态的:
最后,我让它把竞品也调查了一下。Agent 做了一份 五维评分对比 Excel(录音质量、AI 能力、便携性、生态整合、性价比),每一维都给了分数和依据。表格里挂了 8 家竞品的基础参数,包括品牌、型号、定价区间、主打卖点、目标用户,方便后续直接做横向比对:
Case 2 | 把品牌文档做成技能,批量生成产品介绍页
再说一个点:K 2.6 现在成为了 Kimi 「Agent」 的底层模型,在 Vibe Coding 建站能力上的提升比较明显。
这次升级,在它上面叠了一个小能力:文档转 Skill。
你把公司已有的 Office 文档(比如一份产品介绍模板、一份品牌规范)丢给 Kimi 「Agent」,它可以把里面的风格和规范炼成一个可复用的 Skill。 之后要生成类似内容,直接调这个 Skill 就行,不用每次从头教一遍。
这个 Skill 是封装好的,里面包含从文档里抽出来的视觉元素、文案骨架、页面模块。下次调用时,Agent 会先走这套规范,不用从零开始。
我们手里有一份 iShout 品牌规范文档,视觉风格、产品定位、文案调性、页面结构都在里面。我把它交给 Kimi 「Agent」,先练 Skill,再用这个 Skill 批量生成 iShout 的产品介绍页。
上传之后,Agent 开始解析,把视觉风格、配色规范、文案语气、产品卖点结构这些要素一条条拎出来,打包成一个独立的 Skill:解析过程里能看到它在提取主色值、字体层级、留白比例,以及文案里反复出现的语气词和结构句式。
这里有一点可以记录:Agent 不只是在读文字,它会把文档里的排版结构、图片风格、色彩搭配这些视觉信息也一起纳入判断。
Skill 做好之后,我给了它一个任务:
帮我完整生成附带登录系统、数据库的 ishout 网站,用我给的产品图。 跑起来之后,我记录几个细节。
第一个是在工作流里,Kimi 「Agent」 会首先进行 Plan,对整个后端架构全面理解,能实现完整的后端功能,包括数据库表、API 路由、登录和预定页面:
之后,Kimi 「Agent」 完整做出来了整个 iShout 网站,Agent 会主动使用我上传的素材图。它先把产品图做了抠图处理,再嵌进落地页里。页面里的产品详情,比如「iShout 是一个 AI 语音引擎」、各项模拟参数,也都顺着品牌文档里的卖点结构填了进去。
背景是符合 iShout 的动态音波效果:
首页里,一个完整落地页该有的模块基本都有了,整个页面基本都是懒加载:
另外,5 个场景是 5 套独立的落地页,不是只换文案。校园、户外、商务、旅行、日常,每个场景下的素材图、文案重心、视觉氛围都是分开做的。整体有非常漂亮的音波效果:
比如,校园采访那页用的是课堂和学生访谈场景图,文案落在收音距离和课堂降噪。户外直播那页换成风声环境下的便携使用画面,重点是续航和抗噪,商务会议那页是会议桌多人收音的视觉,强调清晰度和指向性。
一开始我就让 Kimi 「Agent」 帮我搭了一个后台数据库。前端这边,对应就是预订、联系我们和登录这几个入口。
拿“预订”来说,我给它设了一个可自定义的使用场景。用户需要填姓名、邮箱这些基础信息,然后就可以直接提交。整个流程比较标准,没有做太多复杂设计。
登录这块也是类似的思路。现在可以直接用 Kimi 「Agent」 很快搭一个登录页,不用自己从头写一套认证逻辑。
而且它支持直接用 Kimi 账号登录:
如果中间有问题,我也让它做了一个模拟的后台工单系统。入口就在“联系我们”里,用户填一个表单就可以提交。
提交之后会自动生成一条工单,数据直接进后台。后台团队看到以后,可以按工单去跟进,再去联系用户。
前面这三块的数据,都会统一写进数据库,比如我已经在“预订”里实际填过一条信息,提交之后数据就直接进库了:
最后,所有页面的代码和源码都可以直接打包下载:
整个流程跑完之后,品牌的调性、风格、卖点结构,这些过去需要口头反复传递的"隐性知识",变成了一个可以复用的工具,而且能够非常迅速地做成一个简单的、附带后台数据库的网站。
对内容团队来说,这意味着可以批量跑出一批符合品牌规范的定制内容,不用每次重新教 Agent 你的品牌是什么样。
整体来看,Kimi 「Agent」 在这次升级里展示出来的能力,可以总结成三件事。
【1】第一:Kimi 「Agent」 用 Skill 更顺手了,可以直接创建 Skill,将自己的企业品牌、调性、视觉规范、文案结构、卖点骨架直接封装进去。
【2】研究能力接到了大量的专业数据源上。
【3】多 Agent 并行叠上多格式同步交付,能直接拉十几个子 Agent 并行执行任务,一次输入同时生成多个格式的内容。
当然,以上这些能力还在快速迭代。
Agent 跑复杂任务的时候,中间执行细节还是需要人把关,输出的最终质量也取决于对任务定义的精准程度。
底座模型的每一次升级,都在往上推这条「水平线」。
🚥
未来一到两年内比较确定的一件事是底座模型的办公能力会继续往上攀升,而 Agent 产品作为这个能力的上层出口,它能「真干活」的程度,会决定这东西到底能渗透进多少日常办公场景。
但更有意思的问题是:当每个团队都有了这套工具之后,真正拉开差距的,是什么?
十字路口正在寻找独立撰稿人,撰写 AI 产品和模型评测。
如果你写过类似文章:《实测 PixVerse C1》、《实测 LibTV》,请联系 zeo0811@gmail.com ,邮件内容请包括:① 个人介绍、② 你写过的 AI 评测文章。
我们会提供有竞争力的稿酬。期待与你一起观察与记录 AI 时代 🎪