今天Kimi发布了一系列的新功能,包括新的模型、更强的代码、以及Agent集群能力,号称跑到了gemini-3-pro级别去了,尤其是Agent Swarm集群功能,可以并发操作多个Agent实现复杂任务。
一时间,脑子里很多想跑的。
但好巧不巧,就在刚刚,Deepseek也发布了最新的模型,让外界对v4有了更清晰的预期。
这个很强啊,预期后面会接入更多的应用,直接用国产模型就能干到Manus、Flowith用海外顶级模型的效果哈哈哈。
OK,接着来看下Agent Swarm出来的文章效果,我直接导入了。
DeepSeek-OCR2发布:AI学会用眼睛思考了
过去的AI看图,根本就是在瞎扫描
传统大模型看图的方式极度僵硬——从左到右,从上到下,逐行扫描像素。一篇学术论文和一张购物小票,执行完全相同的路径。
这种固定路径的恶果是:AI明明能看到图,却总要先把图转成文字再推理。绕一大圈,效率低且经常出错。
OCR2干的不是优化,是直接换了底层逻辑
1月27日,DeepSeek-OCR2发布,论文名《DeepSeek-OCR 2: Visual Causal Flow》。
OCR1主攻视觉压缩——文字转像素图再压缩成token。效果还行,但本质仍是像素层面处理。
OCR2彻底换了思路:让AI基于图片的内容逻辑去理解,而非执行机械扫描。看复杂报表时,你不会逐字阅读,而是先扫整体结构,再定位关键数字。大脑瞬间在构建逻辑链条。DeepSeek-OCR2做的就是这个,官方称之为视觉因果流。
图:OCR2核心架构——抛弃CLIP,改用LLM作为视觉编码器
CLIP被扔了,这才是真正的破局点
传统视觉语言模型用CLIP把图像转token序列,按固定光栅顺序喂给大模型,直接无视图像语义。分栏报纸左右两栏文字,按扫描顺序读上下文全乱。
OCR2把CLIP彻底扔掉,改用LLM架构——基于Qwen2-0.5B——作为视觉编码器。编码器不再简单转token序列,而是根据语义内容动态重排token顺序。同样视觉信息,不同内容结构,输出完全不同。
论文称之为两级级联结构:第一级编码器语义重排序;第二级LLM解码器基于有序序列推理。图片里的因果关系被编码进token顺序本身。
图:从光学压缩到视觉因果流的思路转变
Karpathy点破了一个更深的问题
OmniDocBench基准测试,OCR2得分91.09%,比OCR1提升3.73%。阅读顺序准确度编辑距离从0.085降到0.057。这领域基准已很成熟,几个百分点提升都是重大突破。
Andrej Karpathy——前OpenAI研究员——评论指出:最有趣的问题是,像素是否比文本token更适合作为LLM输入。把图片先转文字再喂模型,是必要的吗?还是可以直接让模型从像素开始理解世界?DeepSeek-OCR2的回答很明确:可以直接从像素开始。Tokenization这个被无数人吐槽的环节,可能真的该退休了。
图:视觉压缩技术演进路线
V4传闻:春节前后会憋出更大的招?
开发者社区关于DeepSeek V4的传闻已扩散。据说发布时间可能在2月春节前后,核心方向是AI编程和长上下文代码理解。
更有意思的传闻:V4可能不再区分通用模型和推理模型,直接把R系列推理能力整合进去。若真如此,配置AI应用的复杂度将大幅下降——这意味着全能模型时代或许真的要来了。
——— END ———
怎么样?其实我之前这篇文章其实也是这样用Kimi Office的能力跑的:一文看懂GEO|普林斯顿大学最新论文解析
图文排版都不用做了,超级省事。
而且加上,Kimi的多模态能力,听说是可以看2个小时的视频?
那是不是可以开发一个产品,直接从youtube、b站等平台视频转成图文章,对标notebookLM,替代youmind等产品,成本下降一半
有没有搞头??急!!
Kimi Agent Swarm还有什么有趣玩法吗,球球🥺