AI 正日益成为企业应用和软件工作流的核心。但即便是当今最强大的 AI 系统,也很少依赖单一模型或单一能力。这些系统通常需要融合多种技术与能力,包括语言理解、感知与检索、预测分析,以及严格的安全机制(如有害内容检测的防护栏),并在紧密集成的 AI 工作流中协同运作。
正是基于这一现实,IBM 今日发布了 Granite 4.1 系列,这是其 Granite 模型家族的最新版本。本次发布涵盖小语言模型(SLM),以及 Granite 语音、视觉、嵌入和 Guardian 模型。其目标是让开发者能够在真实的企业级 AI 系统中轻松调用这些模型。尽管体量精简,这些模型的表现却相当出色。
纵观整个系列,Granite 4.1 在工具调用和指令遵循方面展现出亮眼的语言模型性能;Granite 语音模型达到了业界领先的转录准确率;Granite Guardian 提供了有害内容检测能力;Granite 视觉模型在表格和图表提取任务上也跻身排行榜前列。
Granite 4.1 语言模型
Granite 4.1 的核心是新一代密集型纯解码器语言模型,提供 3B、8B 和 30B 参数规模的基础版和指令微调版。在各参数量级上,新模型均大幅超越同等规模的 Granite 4.0 语言模型。研究团队发现,新的 Granite 4.1 8B 指令模型在性能上能够持续媲美甚至超越 Granite 4.0 32B 混合专家模型,同时采用了更简洁、更灵活的架构,便于针对下游任务进行微调。
这些模型在工具调用和指令遵循两项企业核心指标上,也与市场上其他主流开源密集型纯解码器模型保持竞争力,包括最新的 Gemma 和 Qwen 模型(均在关闭思维链模式下对比)。
近年来,推理模型虽然越来越受欢迎,但其能力并不总是获取结果的最高效方式。在企业场景中,Token 成本和响应速度往往与性能同等重要。因此,对于指令遵循和工具调用等特定任务,选用基准性能相近但成本更低的非推理模型,对企业用户而言更具实际意义。
Granite 4.1 语言模型的性能突破,源于 IBM 的训练理念——团队将数据质量和分阶段精炼置于优先位置,而非一味追求数据规模。Granite 4.1 模型在多个训练阶段共使用约 15 万亿 Token,从广泛的预训练起步,逐步向更高质量的技术、科学和数学数据收敛,重点强化指令遵循能力。最后几个训练阶段将模型的上下文长度扩展至最高 512K Token,确保模型在处理长文档时不会对短上下文任务的性能造成影响。
预训练完成后,模型经过精心筛选的监督微调和多阶段强化学习(RL)流程进一步优化。每个 RL 阶段针对一项特定能力——例如指令遵循、对话质量、事实准确性或数学推理——从而避免单阶段优化中常见的能力权衡问题。最终打造出的模型家族,不仅能够回答问题,更能在广泛的企业工作负载中保持稳定可靠的表现。
"Granite 4.1 在不依赖长思维链的前提下,实现了极具竞争力的指令遵循和工具调用性能,提供可预期的延迟、稳定的 Token 用量和更低的运营成本,"IBM Research 杰出工程师、Granite 语言模型首席架构师 Rameswar Panda 表示,"这使其成为企业工作负载中一个强有力的生产就绪选择,在效率与可靠性上表现突出。"
多模态模型更新
在语言模型之外,IBM 还同步发布了多个模态的更新模型,这些模型在端到端 AI 系统中普遍存在,同样具备独立完成任务的能力。
Granite Vision 4.1
本代 Granite Vision 是一款视觉语言模型(VLM),专为文档理解任务设计,尤其擅长表格、图表的信息提取,以及键值对(KVP)提取——即从文档中提取发票编号、日期、姓名等结构化业务信息。
"这些任务对于企业自动化流水线至关重要,"IBM Research 多模态 AI 团队研究经理 Eli Schwartz 表示,"Granite Vision 可以作为前沿模型的替代方案,以极低的成本大规模完成这些任务。"
Granite Vision 4.1 的性能提升由两大核心驱动。其一是受 DeepStack 启发的特征注入方案,将视觉信息分布到大语言模型的多个层中,将语义理解与精细空间细节相结合。其二是训练数据集——团队结合真实样本与合成生成的 KVP、表格和图表数据,专门面向企业应用场景进行训练,并大幅增加了训练数据量。最终,新模型在同等规模的可用模型中已全面领先。
与 Granite Vision 4.1 同步,团队还发布了 ChartNet——一个包含百万级图表的数据集,用于训练新模型。
Granite Speech 4.1
IBM Research 同步发布了一系列 Granite Speech 4.1 模型。新模型引入了面向边缘场景的多语言语音识别与翻译能力,在吞吐量、延迟和转录丰富度之间提供不同的权衡选项。
Granite Speech 4.1 2B 实现了 5.33% 的词错误率(WER),跻身 OpenASR 排行榜顶级模型之列。此次同步发布两个变体:Granite Speech 4.1 2B Plus 提供更丰富的转录功能;Granite Speech 4.1 2B NAR 则以部分功能换取大幅提升的吞吐量。当前大多数 Transformer 模型采用自回归方式——即逐个 Token 生成——而 Granite Speech 4.1 2B NAR 可一次性生成完整序列。IBM Research 团队发现,这种新架构显著提升了 GPU 利用率和整体吞吐量,并计划将这一格式推广至更多模型。
新语音模型延续了该系列一贯的"以小博大"传统。此前,IBM 与澳大利亚皇家飞行医生服务机构合作,基于早期版本的 Granite Speech 为在飞机嘈杂环境中工作的临床医生构建了转录引擎。测试表明,Granite Speech 在处理背景噪音方面远优于其他商业模型。
Granite Guardian 4.1
本次发布的另一重要组成部分是 Granite Guardian 4.1——一款专用于风险评估、合规检查和输出不确定性评估的模型。Guardian 不再作为简单的二元过滤器,而是输出经过校准的不确定性分数,为下游用户和系统提供更灵活的响应方式,包括升级处理、人工审核或自动缓解。这一设计体现了一种更广泛的理念转变:将安全性、质量和正确性视为可直接集成到 AI 流水线中的模型驱动问题,而非事后附加的补丁。
Granite Guardian 可与任意语言模型配合使用,无论其权重是开放还是专有。该模型经过训练,能够识别社会偏见内容、仇恨性或辱骂性语言、幻觉、智能体风险、用户试图突破大语言模型安全控制的行为,以及 IBM AI 风险图谱中记录的其他多个维度。早期版本已在独立的防护栏模型评测基准中名列前茅。
Granite Embedding Multilingual R2
Granite Embedding Multilingual R2 将检索支持扩展至 200 余种语言,同时大幅提升上下文长度,支持在大规模多语言文档集合中进行高效语义搜索。在较小规模端,9700 万参数的嵌入模型证明了通过精心剪枝和训练,即便在资源受限的条件下也能实现领先的检索性能。两款模型均有望在 MTEB 排行榜各自规模段中位居前列。
系统级视角下的企业 AI
综合来看,Granite 4.1 系列的全面发布体现了 IBM 对基础模型角色的系统级思考——展示了专为特定用途设计的高效小模型如何切实解决企业的实际问题。其重点不在于单纯追求某一模型的规模或能力,而在于为企业构建模块化、高效且可治理的 AI 系统,缩短从研究到部署的落地距离。
所有 Granite 4.1 模型均以 Apache 2.0 许可证发布,彰显了 IBM Research 对开放透明创新的持续承诺。无论是工具调用、指令遵循、有害内容检测、领先的转录准确率,还是表格与图表提取,Granite 4.1 都旨在成为下一代企业 AI 应用的实用基础。
您可以在 watsonx、Hugging Face 等平台上体验这些模型,立即将其应用于企业任务。
Q&A
Q1:Granite 4.1 语言模型相比上一代有哪些提升?
A:Granite 4.1 在各参数量级上均大幅超越同等规模的 Granite 4.0 模型。其中 8B 指令模型的性能可媲美甚至超越 Granite 4.0 32B 混合专家模型,同时架构更简洁,更易于微调。训练上采用约 15 万亿 Token 的多阶段策略,上下文长度最高扩展至 512K Token,并通过多阶段强化学习分别优化指令遵循、对话质量、事实准确性等能力。
Q2:Granite Speech 4.1 的 NAR 模型有什么特别之处?
A:Granite Speech 4.1 2B NAR 采用非自回归架构,可一次性生成完整序列,而非像传统 Transformer 模型那样逐个 Token 生成。这种方式显著提升了 GPU 利用率和整体吞吐量,适合对速度要求较高的边缘部署场景。该模型以牺牲部分转录功能为代价,换取大幅提升的处理效率。
Q3:Granite Guardian 4.1 如何帮助企业管控 AI 风险?
A:Granite Guardian 4.1 是一款专用风险评估模型,能够检测社会偏见、仇恨性语言、幻觉、智能体风险及安全控制绕过行为等多类风险。与简单的二元过滤不同,它输出经过校准的不确定性分数,让系统可以灵活选择升级处理、人工审核或自动缓解等响应方式,可与任意语言模型配合使用。