用Kimi2.5 Agent Swarm,解读DeepSeek v4前最新模型,效果意外地好!!

今天Kimi发布了一系列的新功能,包括新的模型、更强的代码、以及Agent集群能力,号称跑到了gemini-3-pro级别去了,尤其是Agent Swarm集群功能,可以并发操作多个Agent实现复杂任务

一时间,脑子里很多想跑的。

图片

但好巧不巧,就在刚刚,Deepseek也发布了最新的模型,让外界对v4有了更清晰的预期。

图片
以往解读一个新模型或者论文,需要起码半天,然后再写文章、整理图片,写到公众号里发布,至少一天是没有了。
欸,我灵机一动,是不是可以直接用Kimi Agent Swarm帮我完成以上所有流程呢?正好也能测一下它的效果。
说干就干。
进到Kimi,右下角就能看到K2.5了,选择Agent 集群。
图片
输入任务,让Kimi先找到DeepSeek这个新模型&论文的出处,然后到海外论坛找大v的解读、评价,最后写一篇内容,关键是一定要带上「图片」确保最终是一个图文并茂的「word文档」这样我就可以直接导入公众号后台了。
图片
接着,就能看到Agent Swarm的一顿操作。
首先就是常规的规划任务,基本上按我说的去做。
图片
有趣的来了,Kimi会去自动新建多个subagent「专家」去解决不同的问题,例如这里是word文档生成专家。
图片
还有调研专家、论文解读专家等等。。

点开每个专家,是能看到一个独立的Agent Window,里面是每个subagent的独立操作窗口,这也就是我开头说的 并发操作多个Agent实现复杂任务
图片

这个很强啊,预期后面会接入更多的应用,直接用国产模型就能干到Manus、Flowith用海外顶级模型的效果哈哈哈。

OK,接着来看下Agent Swarm出来的文章效果,我直接导入了。



DeepSeek-OCR2发布:AI学会用眼睛思考了

过去的AI看图,根本就是在瞎扫描

传统大模型看图的方式极度僵硬——从左到右,从上到下,逐行扫描像素。一篇学术论文和一张购物小票,执行完全相同的路径。

这种固定路径的恶果是:AI明明能看到图,却总要先把图转成文字再推理。绕一大圈,效率低且经常出错。

OCR2干的不是优化,是直接换了底层逻辑

1月27日,DeepSeek-OCR2发布,论文名《DeepSeek-OCR 2: Visual Causal Flow》。

OCR1主攻视觉压缩——文字转像素图再压缩成token。效果还行,但本质仍是像素层面处理。

OCR2彻底换了思路:让AI基于图片的内容逻辑去理解,而非执行机械扫描。看复杂报表时,你不会逐字阅读,而是先扫整体结构,再定位关键数字。大脑瞬间在构建逻辑链条。DeepSeek-OCR2做的就是这个,官方称之为视觉因果流

图片

图:OCR2核心架构——抛弃CLIP,改用LLM作为视觉编码器

CLIP被扔了,这才是真正的破局点

传统视觉语言模型用CLIP把图像转token序列,按固定光栅顺序喂给大模型,直接无视图像语义。分栏报纸左右两栏文字,按扫描顺序读上下文全乱。

OCR2把CLIP彻底扔掉,改用LLM架构——基于Qwen2-0.5B——作为视觉编码器。编码器不再简单转token序列,而是根据语义内容动态重排token顺序。同样视觉信息,不同内容结构,输出完全不同。

论文称之为两级级联结构:第一级编码器语义重排序;第二级LLM解码器基于有序序列推理。图片里的因果关系被编码进token顺序本身。

图片

图:从光学压缩到视觉因果流的思路转变

Karpathy点破了一个更深的问题

OmniDocBench基准测试,OCR2得分91.09%,比OCR1提升3.73%。阅读顺序准确度编辑距离从0.085降到0.057。这领域基准已很成熟,几个百分点提升都是重大突破。

Andrej Karpathy——前OpenAI研究员——评论指出:最有趣的问题是,像素是否比文本token更适合作为LLM输入。把图片先转文字再喂模型,是必要的吗?还是可以直接让模型从像素开始理解世界?DeepSeek-OCR2的回答很明确:可以直接从像素开始。Tokenization这个被无数人吐槽的环节,可能真的该退休了。

图片

图:视觉压缩技术演进路线

V4传闻:春节前后会憋出更大的招?

开发者社区关于DeepSeek V4的传闻已扩散。据说发布时间可能在2月春节前后,核心方向是AI编程和长上下文代码理解。

更有意思的传闻:V4可能不再区分通用模型和推理模型,直接把R系列推理能力整合进去。若真如此,配置AI应用的复杂度将大幅下降——这意味着全能模型时代或许真的要来了。

——— END ———


怎么样?其实我之前这篇文章其实也是这样用Kimi Office的能力跑的:一文看懂GEO|普林斯顿大学最新论文解析

图文排版都不用做了,超级省事。

而且加上,Kimi的多模态能力,听说是可以看2个小时的视频?

那是不是可以开发一个产品,直接从youtube、b站等平台视频转成图文章,对标notebookLM,替代youmind等产品,成本下降一半

有没有搞头??急!!

Kimi Agent Swarm还有什么有趣玩法吗,球球🥺