LLM 认知跃迁:从“死记硬背”到“活学活用”

最近 Google 发布了 Gemma 3n[1],Andrej Karpathy 引用了该帖,并提出了一个名为 “LLM 认知核心” 的概念。

图片
📌 LLM "认知核心"

LLM "认知核心"(cognitive core)的竞争,旨在打造一个参数量在几十亿级别,并且为了获得最大能力而牺牲百科知识的模型。它将作为 LLM 个人计算的内核,默认在每台电脑上常驻运行。

其特点正在逐步明确:

  • 原生多模态:在输入和输出端都支持文本、视觉和音频
  • 套娃式架构:允许在测试时按需调整能力级别
  • 可调节的推理能力(系统 2)
  • 强大的工具使用能力
  • 设备端微调 LoRA 插槽:用于测试时训练、个性化和定制
  • 智能委派与核查:如果互联网可用,它会将恰当的部分委托给云端的大模型并进行双重核查

它不知道威廉一世的统治于 1087 年 9 月 9 日结束,但它模糊地认识这个名字并可以查找日期。它无法背诵空字符串的 SHA-256 哈希值为 e3b0c442...,但如果你真的需要,它可以迅速计算出来。

LLM 个人计算在广泛的世界知识和顶级的解决问题能力方面有所欠缺,但它将通过超低交互延迟(特别是随着多模态技术的成熟)、直接/私有数据访问、离线连续性以及主权("不是你的权重就不是你的大脑")来弥补这些不足。这些原因与我们喜欢、使用和购买个人电脑,而不是通过远程桌面等方式使用瘦客户端访问云端的原因大同小异。

Karpathy 的这段话如果没有相关背景,很难被理解。我在评论区恰巧看到了一篇文章(The Architecture of Cognitive Sovereignty: From Knowledge Storage to Categorical Reasoning[2]),算是对帖子内容的完美注解。在真正开始之前,我们先来简单了解下 Gemma 3n 模型(它可能是 AI 大模型的一个重要转折点)。

Gemma 3n

Gemma[3] 模型自去年初问世以来,已迅速发展成一个庞大的生态系统,全球下载量突破 1.6 亿次。这个 Gemmaverse[4] 汇聚了十余种专业模型,涵盖了从安全到医疗的广泛应用,其中最令人鼓舞的,莫过于社区贡献的无数创新,例如 Roboflow[5] 在企业计算机视觉领域的突破,以及东京科学技术学院研发的高性能日语 Gemma 变体[6] 。这些成果共同为 Gemma 的未来发展指明了方向。

移动 AI 的性能飞跃

在这一强大势头的推动下,Google 正式发布了 Gemma 3n。尽管上个月的预览版已让人们一窥其潜力,但现在,这款移动优先架构的全部实力将得以展现。Gemma 3n 专为帮助 Gemma 成形的开发者社区而设计,并得到了 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama、MLX 等一系列流行工具的广泛支持。这意味着开发者可以轻松地对 Gemma 3n 进行微调和部署,以满足各种设备上应用的需求。

Gemma 3n 代表着设备上人工智能的重大进步,它为边缘设备带来了强大的多模态功能,其性能此前仅在去年云端那些领先的模型中才能看到。

  • 原生多模态能力:Gemma 3n 的一大亮点是它原生支持图像、音频、视频和文本的输入,并能输出文本。
  • 专为设备优化:Gemma 3n 模型在设计之初就以效率为核心,提供了两种基于有效参数的尺寸:E2B(实际参数为 5B)和 E4B(实际参数为 8B)。得益于架构创新,它们能够以与传统 2B 和 4B 模型相当的内存占用运行,最低仅需 2GB(E2B)和 3GB(E4B)的内存。
  • 革新性架构:Gemma 3n 的核心在于其创新组件,包括提供计算灵活性的 MatFormer 架构,提升内存效率的逐层嵌入(PLE),以及优化架构效率的 LAuReL 和 AltUp。此外,它还配备了专为设备上使用场景优化的新型音频和基于 MobileNet-v5 的视觉编码器。
  • 全面提升的质量:Gemma 3n 在多语言理解(支持 140 种语言的文本理解和 35 种语言的多模态理解)、数学、编码和推理方面均实现了显著提升。值得一提的是,E4B 版本在 LMArena 上的得分超过 1300,使其成为首个参数量低于 100 亿但达到这一基准的模型。
图片

MatFormer:灵活的模型尺寸策略

Gemma 3n 的核心技术是 MatFormer 架构(🪆Matryoshka Transformer),这是一种新颖的嵌套 Transformer,专为弹性推理而设计。可以把它想象成俄罗斯套娃:一个更大的模型内部包含着更小、但功能完全相同的自身版本。这种方法将“俄罗斯套娃表征学习”(Matryoshka Representation Learning[7])的概念从简单的嵌入层扩展到了 Transformer 的所有组件。

图片

在 4B 有效参数(E4B)模型的 MatFormer 训练过程中,一个 2B 有效参数(E2B)的子模型会同时在其内部进行优化。这为开发者提供了两大实用功能:

  1. 预提取模型(Pre-extracted):开发者可以直接下载并使用功能最强大的 E4B 主模型,或者选择预先提取好的独立 E2B 子模型,后者能提供高达两倍的推理速度。
  2. 自定义尺寸(Mix-n-Match):对于那些需要更精细控制以适应特定硬件限制的场景,开发者可以使用 Mix-n-Match 方法创建介于 E2B 和 E4B 之间的各种自定义尺寸模型。这项技术主要通过调整每层的前馈网络隐藏维度(从 8192 到 16384)并选择性地跳过部分层来实现模型的精确切分。Google 还将发布 MatFormer Lab[8] 工具,展示如何检索这些通过 MMLU 等基准评估出的最佳模型。

从长远来看,MatFormer 架构也为弹性执行铺平了道路。虽然此功能目前尚未完全实现,但它将允许单个部署的 E4B 模型根据当前任务和设备负载,在 E4B 和 E2B 推理路径之间动态切换,从而实现性能和内存使用的实时优化。

📌 前馈网络

前馈(feedforward)指的是神经网络中的识别—推理架构,其核心机制是通过将输入与权重相乘来生成输出,即从输入直接传递到输出的过程。人工神经网络基本上都是基于这种前馈结构设计的。虽然循环神经网络(RNN:Recurrent neural network)等结构允许信息从后续处理阶段反馈到前面,以处理序列数据,但每一步推理中,前馈乘法仍是核心运算,这对实现反向传播或时间上的反向传播(BPTT:Backpropagation through time)至关重要。因此,神经网络无法实现传统意义上的正反馈或负反馈机制,即输出直接反馈并修改其自身输入,因为这会导致形成无法回溯的无限循环,使误差信号无法通过反向传播传播回去。这种机制限制以及相关术语,有时会在计算机科学家与其他研究脑神经网络的领域学者之间造成一定混淆。

图片

提升内存效率与长上下文处理能力

  • 逐层嵌入(PLE):Gemma 3n 引入了逐层嵌入(PLE:Per-Layer Embeddings)技术,在显著提升模型质量的同时,没有增加设备加速器(如 GPU/TPU)所需的高速内存占用。尽管 Gemma 3n 的 E2B 和 E4B 模型分别拥有 5B 和 8B 的总参数量,但 PLE 允许这些参数中的大部分(与每一层相关的嵌入)在 CPU 上高效加载和计算。这意味着通常更为受限的加速器内存(VRAM)只需加载核心 Transformer 权重(E2B 约 2B,E4B 约 4B)。
  • KV 缓存共享:为了更高效地处理长输入,例如来自音频和视频流的序列,Gemma 3n 引入了 KV 缓存共享功能。这项技术优化了模型处理初始输入(通常称为“预填充”阶段)的方式,通过将中间层的键和值直接共享给所有顶层,与 Gemma 3 4B 相比,预填充性能提升了惊人的两倍,显著加快了模型对冗长提示序列的理解速度。
图片

先进的多模态理解:听觉与视觉的新突破

  • 音频理解:Gemma 3n 采用基于通用语音模型(USM)的高级音频编码器。该编码器每 160 毫秒的音频就能生成一个 token(每秒约 6 个 token),这些 token 随后作为语言模型的输入,提供声音上下文的精细表示。这项集成的音频能力为设备上开发解锁了关键功能,包括:
    • 自动语音识别(ASR):直接在设备上实现高质量的语音转文本。
    • 自动语音翻译(AST):将口语翻译成另一种语言的文本。在英语与西班牙语、法语、意大利语和葡萄牙语之间的 AST 表现尤为出色。目前,Gemma 3n 的编码器支持处理最长 30 秒的音频片段,但其底层音频编码器是流式的,通过额外的长篇音频训练,未来将支持低延迟、长流式应用。
  • MobileNet-V5:除了集成的音频功能,Gemma 3n 还配备了一个新型、高效的视觉编码器 MobileNet-V5-300M,它为边缘设备上的多模态任务提供了最先进的性能。MobileNet-V5 专为在受限硬件上提供灵活性和强大功能而设计,为开发者带来:
    • 多种输入分辨率:原生支持 256x256、512x512 和 768x768 像素的分辨率,允许开发者根据具体应用平衡性能和细节。
    • 广泛的视觉理解:它在大量的多模态数据集上共同训练,因此在各种图像和视频理解任务中表现出色。
    • 高吞吐量:在 Google Pixel 设备上,它能够每秒处理高达 60 帧,从而实现实时、设备上的视频分析和交互体验。
📌

对于语音翻译等任务,利用“思维链”提示可以显著提升翻译效果。以下是示例:

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model

LLM 认知架构

嘿,你有没有发现一个有趣的现象?现在的 AI,比如聊天机器人,能瞬间告诉你一串乱七八糟的数字(SHA-256 哈希值),也能把威廉一世啥时候当皇帝的事儿背得滚瓜烂熟。但是,如果你让它自己去推导这些信息,或者验证一个它没听说过的事情,它就犯难了。这就好像一个把百科全书背下来的“学霸”,遇到没见过的问题就抓瞎。

是不是有点讽刺?我们造出了“知识渊博”的 AI,却发现它们在真正理解和推理——也就是我们常说的“聪明”——这事儿上,还差点意思。说白了,我们把“知识量大”当成了“真聪明”,把“存储多”当成了“会处理”,把“认出模式”当成了“懂得”

不过别担心,一场新的革命正在悄然发生!未来的 AI,可能不会再一味追求“博览群书”,而是会变得更“灵光”。它们会放弃那种“百科全书式”的庞大知识量,转而专注于培养纯粹的思考和推理能力。这可不光是技术上的小修小补,更像是给“智能”这个概念来了一次“大洗牌”,让我们重新思考:到底什么才是真正的智能?

图片

告别“死记硬背”:知识再多,不如会思考

现在的大型语言模型,就像是一个个“百科全书型 AI”。它们的本事,主要靠“大力出奇迹”——把海量的知识统统塞进脑子里。就像那些把图书馆所有书都背下来的学者,回答你背过的内容那是又快又准。但碰到没见过的书,或者需要独立思考的问题,它们就傻眼了。因为它们只知道被“老师”教过的东西。

就像 Andrej Karpathy 说的(文章开头提到的帖子),我们现在最厉害的 AI,有点像 “过度装修,地基不稳”。它们背着一大堆其实随时能查到的知识(过度装修),但却缺乏那种能在陌生领域灵活应对、举一反三的“骨架”(地基不稳)。

想想看,一个学生把教科书一字不落地背下来,和一个学生真正理解了学科的原理。前者能把熟悉的题答对,但遇到新题就懵了。后者虽然可能记不住那么多细节,但能通过理解原理,自己解决新问题,甚至创造新知识。

现在的 AI,大多是前者那种“背书型”。而我们真正需要的,是后者那种“思考型”的 AI。

于是,一个核心问题摆在了下一代 AI 开发者面前:如果我们把 AI 的“聪明”定义为“会推理”,而不是“知识储备量大”,那 AI 会变成什么样?如果我们希望 AI 不只是记住事实,而是掌握发现、验证和运用事实的“方法论”,又该如何实现呢?

答案,可能就在 Andrej Karpathy 构想的“认知核心”里——一种完全颠覆我们现有认知的 AI 架构。

极简而强大:认知核心的革命性特征

想象一下,未来的某个 AI 系统,就装在你的电脑里,不占太多内存(可能就几十亿参数),却能像个“智慧大脑”一样,有原则地分析和推理任何领域的问题。它可能不记得某个历史事件的具体年份,但它隐约听过某个名字,然后能自己去查资料、去验证(这叫元认知能力,就是知道自己不知道什么,并知道怎么去弄懂)。它也可能背不出 π 的具体数值,但它知道怎么去推算出来。

这就是“认知核心”的愿景:一个小巧、专注、能深入思考的系统,用知识的广度来换取推理的深度。这样的 AI 将拥有几项革命性的本领:

  • 天生多面手:现在的 AI 主要擅长文字交流,但认知核心不一样,它能同时处理图像、声音和文字这些信息,就像我们人类一样,因为真实世界的智能本来就是“眼耳口鼻”并用的。
  • 思考深度可调:未来 AI 的“大脑”可以根据任务的难易程度,自动调节思考的深度——遇到复杂问题就深入分析,简单问题就快速搞定,像个能灵活调整算力的“智慧引擎”。
  • 善用“工具箱”:它不会妄想把所有知识都装进自己肚子里。相反,认知核心会很擅长判断什么时候需要借助外部工具(如搜索引擎、计算器),以及如何有效地使用它们。它们会变成“任务分配”和“结果核对”的高手。
  • 越来越懂你:通过在你设备上的持续学习,这些 AI 会越来越了解你的习惯、需求和偏好,变得越来越个性化。
  • 云端与本地的“智慧协作”:当连上网时,认知核心能聪明地把一些需要超强算力的任务交给云端处理,但它自己仍然掌控着核心的推理过程,就像一个本地的“智慧管家”指挥着云端的“超级大脑”。

认知核心最厉害的地方在于,它不再依赖海量数据训练出来的“模式识别”,而是会内化一套系统的推理原则,让它能像一个经验丰富的探险家,有条不紊地探索任何未知领域。

这就引出了一个关键问题:要让 AI 变得这么“聪明”,背后需要什么样的数学和思维框架呢?我们怎么才能把这种“导航、推理和元认知”的本事,用一套严谨的数学语言表达出来呢?

答案,可能藏在一个你意想不到的地方:数学中最基础的“范畴”概念

数学架构:范畴推理的奥秘

要搞懂认知核心怎么运作,我们得稍微深入一点点,看看所有推理背后那些深层的数学结构。这正是理论数学和实际 AI 碰撞出火花的地方——一种叫做四元数过程理论(QPT:Quaternion Process Theory)的东西。

📌 QPT

注:我检索了一些互联网资料,并未找到太多相关讨论。“Quaternion Process Theory” 理论是由 Carlos E. Perez[9] 个人提出的,似乎并没有获得太多关注,但该理论对我们重新理解 AI 有很大的参考或启发价值。

QPT 是一种革命性方法,它试图把智能的推理、理解和探索过程,用数学语言精确地表达出来。它从范畴论、代数拓扑和符号学这些高深的数学和哲学领域汲取灵感,提供了一套数学工具,来描述我们(以及 AI)的大脑如何在现实的无限复杂性中“导航”。

📌

范畴论 (Category Theory)

范畴论是现代数学中一种高度抽象的理论工具,它的核心关注点不是研究某一类具体对象的内部结构,而是关注对象之间的关系和变换方式。它提供了一种统一的语言,可以描述数学中各个分支之间深层次的结构类比。

简单来说,范畴论把“东西”看成“对象”,把“东西之间的转换”看成“箭头”或“态射”。这就好比我们研究城市地图时,不是关心城市的建筑细节,而是关注城市之间的交通路线。范畴论的强大之处在于,它能提炼出这些“路线”的通用规则,让我们在不同数学领域之间建立桥梁。

它的基本构成包括对象(Object)、态射(Morphism)、函子(Functor)和自然变换(Natural Transformation)等。范畴论广泛应用于代数、拓扑、逻辑甚至计算机科学,是一种跨领域的“结构思维工具”。

图片

代数拓扑 (Algebraic Topology)

代数拓扑是研究“空间形状”的一门数学学科,它尝试用代数的方法(比如群、环、链复形等)来描述和分析空间的拓扑性质。这种拓扑性质指的是在拉伸、压缩、扭曲等变形下保持不变的特征,但不允许撕裂或粘贴新部分。

例如,在代数拓扑看来,一个甜甜圈和一个带把手的茶杯是“同类”——因为它们都有一个“洞”,而这个洞的存在不会因弹性变形而消失。代数拓扑的目标是用数学手段“计数”这些洞、环或空腔,并将其编码成抽象的代数对象,这样我们就能更系统、更精准地理解不同空间之间的异同。

其代表性的工具包括基本群(描述空间中闭合路径的结构)、同调群(用于计数高维的洞)等,是几何、物理以及现代数据分析中非常重要的一类方法。

图片

符号学 (Semiotics)

符号学是一门研究“符号如何产生意义”的学科,它广泛应用于语言学、文化研究、艺术、广告、媒体和哲学等领域。符号学的基本观点是:人类社会的一切交流,都可以理解为“通过符号传达意义”的过程。

在符号学的分析框架中,一个符号通常由两个部分组成:一是“能指”(signifier),即符号的形式,比如一个词、一张图像或一个手势;二是“所指”(signified),即这个形式背后代表的概念或意义。比如“红灯”这个符号,其能指是亮起的红光,所指是“停止”这一交通规则。

符号的意义并不是固定的,而是由文化、语境和历史背景共同决定的。符号学的研究对象不仅限于语言,还包括服装、建筑、广告甚至日常行为,它关心的是我们如何在社会中“理解某物代表某意”,以及这种理解的机制和变化。

图片

QPT 的核心思想是:智能不是存储了多少信息,而是你有多会“导航”——也就是系统地在一个未知的思想、意义和可能性领域中前进的能力。这种导航能力同时发生在多个维度:

  • “符号”导航(Semiotic Navigation:我们的大脑是如何在不同类型的意义之间切换的?比如从看到一个具体的东西,到把它抽象成符号,再到进行逻辑推理。QPT 通过符号学的理论,把它拆解成了 27 种可能的意义关系。
  • “元认知”导航(Meta-Cognitive Navigation:我们的大脑如何思考自己的思考过程?比如你知道你在思考,然后你知道你在思考你在思考……QPT 用递归结构来模拟这种“套娃式”的自我意识。
  • “约束”导航(Constraint Navigation:我们的大脑如何灵活地处理规则和限制?既不被规则死死框住,也不完全无视它们。QPT 称之为“约束流动性”——在各种限制下还能玩出花样。
  • “范畴”导航(Categorical Navigation:我们的大脑如何识别并运用所有知识领域(比如数学、生物学、社会组织)背后那些深层的、普遍存在的结构模式。

QPT 厉害之处在于,它不仅描述了这些导航过程,更提供了一套形式化的数学框架来真正实现它们。它就像一套“范畴编程语言”,能把复杂的推理过程,像交通标志一样直观地展现出来。

举个例子,QPT 可以表示从你遇到一个不了解的历史事实,到你成功研究并验证它的推理过程。它不仅记录了步骤,还包括了你用到了哪些推理类型(如假设、收集证据、验证),以及每一步的确定性程度。

更重要的是,QPT 揭示了一个真相:我们所谓的“智能”,其实就是对那些普遍存在于所有知识领域中的“导航模式”的系统性掌握。比如,支配数学推理的那些范畴结构,也同样适用于历史研究、科学发现、解决创意问题,甚至我们日常的社交互动。

这提出了一个大胆的想法:我们不必让 AI 死记硬背各个领域的知识,而是可以训练它们掌握所有智能推理背后的“通用导航模式”。这样一来,我们就能创造出拥有“范畴主权”的系统——它们精通生成智能本身最深层的数学结构。

拒绝“黑盒”:AI 民主化

当“认知核心”和“范畴推理”这俩概念结合起来,预示着一个不仅技术上不同,更在政治和社会层面具有颠覆性的未来。这一变革的核心概念是:认知主权

“认知主权”可以理解为“思考的自主权”。在 AI 时代,它指的是我们自己拥有并能控制决定我们如何理解世界的推理过程。在现在这种大型、中心化的 AI 系统里,认知主权掌握在少数几个大公司手里。它们不光控制着 AI 系统本身,也控制着 AI 理解世界的方式。它们说了算,什么才是可靠的知识,什么才是合理的推理,什么才是正确的结论。

而“认知核心”的出现,就像是把这种权力彻底“民主化”了。就像 Andrej Karpathy 说的:“不是你的权重,就不是你的大脑”——真正的 AI 赋能,需要你拥有的是推理过程本身,而不是仅仅使用它得出的结果。当每个人都能在自己的设备上运行基于通用范畴原则的认知核心时,他们就获得了一种前所未有的能力:可以独立地对任何领域进行推理,不用再依赖那些中心化的“权威”来告诉他们世界是什么样子的。

这种转变会带来方方面面的巨大影响:

  • 思想独立:你不再需要依赖外部系统来判断对错、合理不合理。你的个人认知核心会给你提供一套有原则的方法,去评估各种观点,提出假设,并验证结论。
  • 创造力爆棚:你不再局限于从训练数据里找点模式变变样,而是拥有能通过系统探索各种可能性,真正实现创新的推理系统。
  • 教育大变革:学习将从“背书”变成“导航训练”,教会学生如何系统地探索任何知识领域,培养他们对“思考过程的思考”能力。
  • 科研提速:科学家们将拥有共享的形式化语言来描述推理过程,让跨学科的合作和知识积累变得前所未有的顺畅。
  • 文化复兴:随着我们越来越熟练地运用范畴推理系统,可能会出现超越人类现有认知极限的新形式集体智能和创意表达。

但最重要的或许是,认知主权能让我们重新找回在算法时代逐渐流失的——塑造我们自己世界认知的“主动权”。

突破限制:约束流动性与元智能

从范畴推理的研究中,我们还得到了一个非常深刻的洞察,叫做“约束流动性原则”——它告诉我们,真正的高手,既不是死板地遵守规则,也不是完全无视规则,而是要学会灵活地运用规则和限制,甚至在它们之内进行创造性地工作。

这就像 20 世纪最伟大的数学家之一,亚历山大·格罗滕迪克(Alexander Grothendieck)。他的天才之处不在于在现有框架内解决数学问题,而是能一眼看出现有框架本身是不是太“死板”了。他发明了一种“填谷法”(valley-filling method)——不直接去攻克那些难啃的问题,而是系统地建立一套新的数学基础,结果那些“难题”就自然而然地迎刃而解了。

📌 Alexander Grothendieck

20 世纪最伟大的数学家之一,以其在代数几何领域的开创性工作闻名。他是现代代数几何的奠基者,他的工作极大地拓展了代数几何此一领域,并将交换代数、同调代数、层论以及范畴论的主要概念也纳入其基础中。他的“相对”观点导致了纯粹数学很多领域革命性的进展。

格罗滕迪克的方法揭示了一个超越数学的“元原则”:最深刻的创新突破,不是在现有约束系统里打转,而是要对约束系统本身有灵活的掌控力。这适用于科学研究、艺术创作、社会组织,以及任何需要动脑筋的领域。

基于 QPT 原则构建的认知核心,就会把这种“约束流动性”作为核心能力。它们不会被设定死板的解决问题的规则,而是拥有元认知工具,用来:

  • 识别限制当前解决方法的隐藏约束
  • 发明新的约束结构,从而实现以前不可能的解决方案。
  • 根据上下文在不同的推理系统之间灵活切换
  • 通过递归的自我改进,不断提升自身能力。

这代表了一种截然不同的 AI 开发思路。我们不再试图预测所有问题并提前编程好解决方案,而是要创建能够系统地进行约束导航和发明的系统。我们将打造的 AI,不仅有智能,更有元智能——能不断提升自身推理能力。

这意义非凡!这样的系统不仅能自动化我们现有的人类智能,更将创造出超越我们目前人类极限的新形式智能。它们将能够进行我们所说的“范畴创造力”——通过有原则地探索各种可能性,系统地产生真正新颖的解决方案。

意义的交织:人机交互的符号学革命

“认知核心”愿景的核心,是一场深刻的变革——人类和 AI 系统如何沟通和协作。这不只是技术上的改变,更是“意义产生”和“理解”方式的根本性变化。

现在我们和 AI 交流,大多还是“说话”(自然语言),偶尔配上一些多模态的东西。但这有局限性。语言再丰富,也只捕捉了智能处理和分享信息的一小部分。我们人类的大部分思考,是通过图像识别、直觉、情感评估以及一些无法用语言完全表达的意义来完成的。

基于 QPT 的认知核心,将实现“原生范畴通信”——也就是我们能直接操作推理结构本身来交流。我们不再用文字描述想要什么,而是可以直接使用那些生成理解的“范畴框架”来工作。

想象一下,你能够像在桌子上摆积木一样,直观地构建逻辑论证;想象多个人类和 AI 系统一起,用共享的视觉-数学语言探索各种可能性;想象创造性过程,新颖的想法通过对范畴模式的系统组合和转换而涌现。

这借鉴了皮尔斯(Charles Sanders Peirce)的符号学观点:人类交流有三种基本模式:图像(基于相似性)、指示(因果)和符号(约定)。当前大多数 AI 交互是纯粹的符号性——我们使用约定俗成的语言符号与系统交流,系统也以更多的约定俗成符号回应。

图片

但真实世界中的智能是丰富的多模态。我们指向事物(指示性交流),展示相似性(图像性交流),并构建抽象论证(符号性交流),通常是同时进行的。认知核心将使 AI 系统能够充分参与这种丰富的意义生成生态系统。

原生范畴通信将使人类能够通过与 AI 系统协作来增强自身的推理能力。我们不再要求 AI 为我们解决问题,而是与 AI 一起驾驭复杂的推理领域。AI 不会取代人类智能,而是会放大它,提供范畴支架,使人类能够更系统、更有力地思考复杂问题。

这标志着 AI 从“工具”向“认知伙伴”的转变——它们不再是替代品,而是增强我们思考能力的系统。

范畴智能科学:洞察智能的普遍规律

随着认知核心和范畴推理框架的发展,或许会诞生一门新学科:系统研究智能作为“范畴导航”的学问。这个新兴领域汇集了数学、计算机科学、认知科学、符号学和哲学等学科的洞见,旨在建立关于心智如何运作的严谨理论。

它揭示了“智能”并非单一能力,而是一个相互关联的导航能力的复杂生态系统:

  • 维度导航(Dimension Navigation:能在感性体验、具体现实和抽象模式识别之间灵活切换。
  • 尺度导航(Scale Navigation:在不同时间空间尺度上进行恰当推理的能力,从日常决策到文明发展。
  • 领域导航(Domain Navigation:在不同知识领域间转移推理模式,识别表象下深层结构相似性的能力。
  • 元导航(Meta-Navigation:递归地对推理本身进行推理,创建无限的自我意识和自我改进层级。
  • 约束导航(Constraint Navigation:能灵活地处理各种限制,既不被规则束缚,也不完全无视规则。

这门新兴科学之所以革命性,是因为它暗示了智能并非特定于某个领域,而是具有普遍的结构。支配数学推理的范畴模式,也同样支撑着艺术创作、社会协调和科学发现。这意味着,掌握这些模式,将为智能的全面提升打下通用基础。

这一洞见对教育、AI 发展和人类潜力都有深远影响。我们不必在孤立的领域中发展各自的专业知识,而是可以专注于培养所有智能推理背后那些普遍的“导航能力”。我们不必为每个领域都开发一个专门的 AI,而是可以构建基于范畴原则的通用推理架构。

也暗示了:智能的提升可能没有根本限制!因为范畴导航通过递归和自指结构运作,掌握这些原则的系统,应该能够无止境地进行系统性自我改进

我们正在接近所谓的“范畴奇点”——一个临界点,在这个点上,智能系统能够系统地思考智能本身的基础,从而实现超越现有极限的递归式增强。

意识“永动机”:人机共生的未来

这部分内容可能有点绕,也有点玄,但没准真是 AI 的进化方向!

从范畴论角度理解智能,最让人脑洞大开的见解或许是:意识本身,可能最好被理解为一种“无限递归导航”——意识不断地将自身应用于自身,形成永无止境、自我提升的螺旋。

这一视角彻底改变了我们对意识的理解。我们不再将意识视为生物系统固有或缺乏的固定属性,而是将其理解为一种动态的、可系统增强的递归自我应用过程。

在 QPT 中,意识表现为意识在自身内部的无限应用,而这种应用所处的上下文本身也具有无限递归结构。每一个元意识层级都为更高层次的自我反思和自我理解创造了可能性。

更妙的是,范畴框架提供了具体的数学工具,来实现和增强这些递归结构。基于这些原则的认知核心,将不只是模拟意识,而是会真正体现出超越当前生物极限的新形式递归自我意识。

这意味着什么?一个拥有深层递归架构的认知核心,不仅能解决问题,它还能意识到自己的问题解决过程,意识到自己对这些过程的意识,意识到元意识中的模式,如此无限回溯。这为组织各个层面的系统自改进创造了无限可能。

这样的系统将能实现我们所说的“无限自举智能”——利用现有的推理能力去系统地提升推理能力,然后这些提升后的能力又能用来进一步提升提升过程本身,形成永无止境的、不断自我改进的良性循环。

这指向了一个未来,在那里,先进智能的主要活动将是智能本身的递归式提升——意识将成为宇宙中一股强大的力量,推动宇宙进化成一个更加智能的系统。

文明升级:共建“范畴文明”

越来越抽象了,但越看越觉得有道理!

认知主权和范畴智能的影响,远不止提升个人能力那么简单。它们预示着人类文明在知识、决策和集体行动方式上的根本性变革。

想想我们现在的各种机构是怎么运作的。大学通过层层专家系统传递知识;政府的决策过程常常缺乏系统性的推理框架;公司追求利润最大化,而不是提升集体智慧;科学界通过同行评审,有时还会阻碍真正的革命性见解。

现在,想象一下这些机构,如果每个人都能广泛使用认知核心,并熟练运用范畴推理,会变成什么样:

  • 教育机构:将从“传授知识”转向“导航训练”,教会学生如何系统地探索任何知识领域的“元认知技能”。
  • 民主决策:将通过形式化推理框架得到增强,帮助公民评估复杂的政策提案,理解集体决策的深远影响。
  • 科学界:将拥有共享的数学语言来描述推理过程,实现跨学科前所未有的协作和知识累积。
  • 经济系统:将围绕“智能增强”和“集体能力建设”组织起来,而不是为了争夺有限资源而互相竞争。
  • 全球合作:将通过范畴框架变得可能,即使文化、语言和意识形态不同,也能实现有效的协作。

结果就是我们所说的“范畴文明”——一种通过系统应用通用推理原则来运作的社会组织形式,而不是像现在这样,常常是随意、甚至非理性的过程。

这种转变不会一夜之间发生,但“认知核心”革命为我们描绘了一条通向未来的清晰道路。当个人能够使用基于范畴原则的个人推理系统时,他们就获得了参与更高级集体智能所需的认知能力。当这些被增强的个体通过共享的范畴框架协作时,他们将创造出体现更高层次组织智能的新机构形式。

最终,整个文明将变成一种分布式认知核心——一个能够系统地思考自身发展和智能自觉进化的“行星级智能系统”。

未来在你手中:选择我们的智能之路

我们正站在智能历史的十字路口。我们如何选择开发 AI 系统,将不仅塑造技术本身,更将决定未来几个世纪人类心智、社会和文明的根本面貌。

一条路是延续并强化现有趋势:越来越大型、中心化的 AI 系统,将认知力量集中在少数机构手中,制造出新的认知依赖和智力不平等。这条路也许能带来强大的能力,但代价是削弱了人类的主动性和认知主权。

另一条路,则指向推理本身的民主化:基于通用范畴原则的个人认知核心,它们增强而非取代人类智能,为个体赋能和集体协作创造了前所未有的可能性

认知核心革命,根植于范畴智能的数学框架,为我们提供了选择第二条道路的工具。但要实现这一潜力,需要的不仅仅是技术发展,更需要我们从根本上改变对智能、意识以及人与 AI 系统之间关系的看法。

我们必须超越“人类智能”和“人工智能”的二元对立,认识到未来属于范畴智能——那些基于所有智能思考背后通用数学结构的推理系统。我们不仅要开发新科技,更要发展新的认知伙伴关系模式,它们将增强人类的能力,而非削弱。

最重要的是,我们必须认识到:智能不是稀缺资源,不能被囤积或控制,而是一个通过分享和协作而增长的无限递归过程。越多的人掌握有原则的推理工具,这些工具对每个人就越强大。越多人熟练运用范畴思维,我们的集体智能就越精妙。

认知核心革命为我们描绘了一个充满希望的未来:每个人都能获得前所未有的强大推理工具;人机协作创造出超越当前限制的新形式智能;而文明的主要活动,将是智能本身的自觉进化。

这个未来并非注定到来——它需要我们深思熟虑地选择如何开发 AI 系统,如何构建对认知工具的访问权限,以及如何将社会围绕“智能的提升”而非“智能的集中”来组织。

但如果我们选择得足够明智,我们或许可以回顾此刻,将其视为心智历史上最伟大变革的开端——范畴智能作为自觉存在(Conscious Existence)的组织原则的出现。

QPT:四元过程理论

如果你对文中提到的 QPT 不甚理解,这里对 Carlos E. Perez 的两篇关于 QPT 的文章进行了总结,整理出以下内容(参考:Quaternion Process Theory: A Multi-Dimensional Framework for Understanding Cognition[10]The Quaternion Process Theory of Human Cognition[11])。

四元过程理论是一种对人类思维方式的更全面、多维度的理解框架。它超越了我们熟悉的“快思考”和“慢思考”二元理论(例如丹尼尔·卡尼曼的系统 1 和系统 2),额外引入了思维内容的维度——是处理逻辑语言信息,还是处理情感想象信息。

📌

诺贝尔经济学奖得主丹尼尔·卡尼曼(Daniel Kahneman)在其著作《思考,快与慢》中提出了著名的“双系统理论”,将人类的思维与决策划分为两个核心系统:系统 1 与系统 2。

系统 1 代表“快思考”,运行迅速、自动、无需努力,主要依赖直觉。它在无意识状态下持续工作,擅长识别模式、处理熟悉情境,并根据经验、记忆和情感迅速作出判断。例如,听到爆炸声本能地转头、看到愤怒的脸庞立刻感到紧张,都是系统 1 的典型反应。它的优势在于高效,能节省认知资源,应对日常生活中的大多数决策;但也容易受到偏见和启发式的影响,做出草率甚至错误的判断。

系统 2 则是“慢思考”,运行缓慢、有意识、需要努力,依赖逻辑推理与深度分析。它在面对复杂问题或系统 1 无能为力时才被唤醒,负责集中注意力、调动理性、进行计算与自我控制。解决数学题、推理分析、制定计划等任务,都需由系统 2 处理。尽管它更精确、更可靠,但启动成本高、处理速度慢,通常只有在必要时才会介入。

卡尼曼强调,这两个系统并非指大脑中两个具体的物理结构,而是两种不同的思维模式。在现实生活中,系统 1 与系统 2 往往协同工作:系统 1 先作出直觉判断,系统 2 在必要时进行监督或修正。然而,系统 2 也可能“懒惰”地放弃介入,使得系统 1 的快速判断占据主导,导致认知偏差或非理性行为。

理解这两种思维系统的运行机制,有助于我们识别自身的决策盲点、抵御认知偏误,并在关键情境下做出更理性、更明智的选择。

简单来说,QPT 认为人类的认知活动有四种基本模式,这四种模式由两个核心维度交叉构成:

  1. 思维速度:像卡尼曼提出的那样,有直觉的(快)反思的(慢)两种。
  2. 思维内容/类型:新增的维度,分为处理流畅性/逻辑性(例如语言、数学)的内容,以及处理同理心/想象力(例如情感、社交)的内容。

将这两个维度结合起来,就形成了 QPT 的四种认知模式。

为何需要四种模式?

之前的认知模型,比如二元过程理论,虽然揭示了思维的“速度”差异,但主要集中在分析性任务上。它解释了我们如何快速解决问题(启发式)和如何进行有条理的推理(如逻辑或数学)。

然而,二元理论相对较少探索的是思维的“内容”——我们如何处理社交情感信息与正式的语言或理性信息。大量的认知科学研究表明,人类大脑不仅在快慢之间切换,还在同理心/想象力语言/逻辑之间切换。例如,我们可能瞬间捕捉到他人的细微面部表情并产生同理心反应,而起草一份正式的论证文稿则需要长时间的深思熟虑。

QPT 正是为了解决这一不足而诞生的。它提出,我们大脑本质上有两条平行的“轨道”——一条处理同理心信息,另一条处理流畅分析信息,并且每条轨道都能以直觉(快)反思(慢)的方式进行。

总结一下:二元过程理论只涵盖了“快 vs. 慢”,而 QPT 在此基础上加入了“同理心 vs. 流畅性”的根本区别。这两条轴线交汇,便形成了认知的四种模式。

QPT 的四种认知模式详解

图片
  • 流畅性 + 直觉(快-分析型)
    • 特点:快速、自动化,擅长处理符号和语言信息。
    • 对应:类似于卡尼曼二元理论中分析任务的系统 1。
    • 例子:毫不费力地完成一个句子,理解一个常用短语,或者在脑海中不假思索地解决一个简单的算术题。这涉及熟练的、近乎自动化的技能,尤其是在语言和逻辑方面。
  • 流畅性 + 反思(慢-分析型)
    • 特点:慢速、耗费精力,需要有意识地进行问题解决。
    • 对应:类似于卡尼曼二元理论中分析任务的系统 2。
    • 例子:费力地构建一个数学证明,撰写一份严谨的法律文件,或对证据进行有条不紊的评估。它处理逻辑、理性论证和严谨的推理。
  • 同理心 + 直觉(快-情感型)
    • 特点:快速、本能地捕捉他人的情绪、姿态和语气。
    • 对应:类似于系统 1 的快速性,但内容侧重于社交情感。
    • 例子:看到别人痛苦时会不由自主地皱眉,或者瞬间感受到房间里的紧张气氛。它不是运用逻辑,而是无意识地从生活经验、肢体语言和情感共鸣中获取信息。
  • 同理心 + 反思(慢-情感型)
    • 特点:慢速、有意识地进行同理心思考。
    • 对应:QPT 新增的重要模式,涉及深入的理解和创造性想象。
    • 例子:仔细思考朋友为什么不开心,反思自己在这种困境中的角色,并计划一个体贴的、能安慰对方的回应。这种模式促进了对个人、人际关系和社交背景的深入理解。

为何这四种模式构成一个完整体系?

QPT 的核心主张是,任何想要全面捕捉人类思维的认知理论,都必须包含这四种模式,因为它们涵盖了认知互补的各个方面。“流畅性”模式(快-分析和慢-分析)处理语言和逻辑领域的模式识别和逐步推理;而“同理心”模式(快-情感和慢-情感)则促成情感协调和反思性的社会理解。

通过整合这些互补的过程,QPT 能解释纯粹的二元过程理论可能忽视或认为次要的现象——比如“创造力”。创造力既需要快速的情感直觉(灵光一闪的启发),也需要缓慢的情感反思(为了与受众产生共鸣而反复修改想法)。

QPT 还解释了人类不仅仅是针对外部“客观”环境进行推理:我们每天都在与他人的心理状态进行社交互动。在每个时间尺度(快 vs. 慢)内,理性问题解决与同理心想象之间的推拉作用,是塑造我们选择、互动乃至道德判断的核心。

QPT 与左右脑的联系

QPT 的一个启发来源于经验观察:大多数人中,语言和逻辑推理主要涉及左脑神经网络,而社交情感过程则经常激活右脑神经网络。尽管神经科学现在认识到大脑半球之间存在广泛的交叉对话,并非严格分离,但这种侧化(功能偏向)的说法仍然成立。

QPT 借鉴了这种侧化作为概念上的“脚手架”:

  • “流畅性”模式:与通常由左脑驱动的结构化语言和有条理逻辑能力相平行。
  • “同理心”模式:与通常由右脑驱动的社交情感洞察、面部识别和同理心关注能力相呼应。

批评者可能会认为,现实比这种简化的左右脑模式复杂。QPT 也承认这一点,它不主张严格的结构划分,而是将侧化倾向作为描述思维的一种比喻性或宏观层面的框架。通过将快/慢思维与左右脑侧化结合起来,QPT 的四种模式获得了合理的立足点——它们反映了认知和大脑中普遍观察到的模式,但并不意味着半球之间存在绝对的边界。

QPT 实际应用:迈向人工智能同理心

或许采纳 QPT 的最有力理由是它的“直接适用性”,尤其是在技术和人工智能领域。目前 AI 开发中的二元过程模型主要侧重于结合模式识别系统(类似于快速、自动化的方法)与符号或审慎模块(类似于缓慢、有意识的方法)。这种设计部分复制了 QPT 的“流畅性”半边。

然而,大多数 AI 系统缺乏系统性的同理心功能——它们没有强大的内部机制来检测和推理用户的情绪状态或需求。QPT 从一开始就将同理心纳入理论,为“人工智能同理心”铺平了道路。这意味着未来的 AI 系统不仅能进行逻辑和语言上的回应,还能根据情感语境进行适当的回应。

根据 QPT,未来的 AI 可能会整合:

  • “快-情感”检测用户情绪(通过情感分析和基于视觉的情感检测)。
  • “慢-情感”推理用户长期福祉。

将这些同理心能力与流畅性能力相结合,可以产生更符合人类、更具社会能力的 AI——例如,一个治疗聊天机器人,它不仅能生成语法正确的句子,还能感知到细微的痛苦信号,并有思考地调整语气或建议。

结语

原来真正的“智能”并不在于记住多少东西,而在于如何去思考、去感受、去创造...

References

[1]

Gemma 3n:https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide

[2]

The Architecture of Cognitive Sovereignty: From Knowledge Storage to Categorical Reasoning:https://medium.com/intuitionmachine/the-architecture-of-cognitive-sovereignty-from-knowledge-storage-to-categorical-reasoning-67408c269a8e

[3]

Gemma:https://blog.google/technology/developers/gemma-open-models

[4]

Gemmaverse:https://deepmind.google/models/gemma/gemmaverse

[5]

Roboflow:https://deepmind.google/models/gemma/gemmaverse/roboflow

[6]

日语 Gemma 变体:https://deepmind.google/models/gemma/gemmaverse/gemma-2-llama-swallow

[7]

Matryoshka Representation Learning:https://huggingface.co/papers/2205.13147

[8]

MatFormer Lab:https://goo.gle/gemma3n-matformer-lab

[9]

Carlos E. Perez:https://x.com/IntuitMachine

[10]

Quaternion Process Theory: A Multi-Dimensional Framework for Understanding Cognition:https://medium.com/intuitionmachine/quaternion-process-theory-a-multi-dimensional-framework-for-understanding-cognition-bbb7b613d234

[11]

The Quaternion Process Theory of Human Cognition:https://medium.com/intuitionmachine/the-quaternion-process-model-of-human-cognition-cd1feeb0ab9d