微信文本嵌入模型KaLM-Embedding登全球榜单：数据工程与训练技巧详解

微信后台团队

2026-01-23 08:30发布于广东微信后台官方账号

问AI · KaLM-Embedding如何通过双向注意力机制提升语义理解？

不论是大模型应用的RAG架构中，还是在语义搜索、推荐系统中，开发人员经常遇到检索不够精准的问题，导致应用效果受限。微信团队开源KaLM-Embedding系列模型，以全球榜首的实力，打通语义检索的“最后一公里”。

文本嵌入Embedding模型可以将任意文本编码到统一向量空间，赋予非结构化内容可度量、可检索的特性，可为上层的检索、分类、推荐等应用提供基础支撑。在RAG等主流大模型应用架构中，Embedding模型能够从海量知识库中精准检索语义相关信息，动态构建高质量上下文，提升大模型生成结果的准确性与可靠性，抑制“幻觉”现象。此外，Embedding技术还广泛应用于文本分类、语义匹配、信息聚类、搜索推荐、多语言理解等多个重要领域，成为现代AI系统中不可或缺的语义基础组件。

就在2025下半年，腾讯微信KaLM团队陆续推出了新一代 KaLM-Embedding 模型系列，包括轻量而强大的中英双语嵌入模型KaLM-Embedding-V2（包括V2和V2.5），以及性能卓越、登顶MMTEB全球榜首的多语言嵌入模型KaLM-Embedding-Gemma3-12B-2511。与同参数规模的主流Embedding模型相比，KaLM-Embedding 系列在多项评测中都展现出显著优势。更重要的是，KaLM-Embedding 提供完整的开源工具链：

完整的数据配方、全开源的数据：让研究者能直接从training-ready的数据集着手；
完善的训练与推理管线：让研究者快速构建媲美工业级的检索器模型, 降低复现与扩展的门槛，以及下游任务适配难度；
开放的商业授权：开源可商用的模型license，旨在推动RAG基础设施的普及。

KaLM团队希望借助这一系列开放贡献，推动通用 Embedding 技术的全面普及，让研究者、开发者乃至企业团队都能自由使用、改进与扩展这一Embedding技术框架；让数据与训练过程更加透明可信；让技术创新能够被更广泛地共享、验证与发展。

一、模型方法

1.1 全双向表征学习：

KaLM-Embedding-V2系列和KaLM-Embedding-Gemma3-12B-2511分别采样Qwen2-0.5B/ gemma-3-12b-pt作为模型主干。在架构上，语言模型天生具有因果注意力掩码，这限制了轻量级嵌入模型在进行表征学习时对全局上下文的捕捉。 KaLM-Embedding-V2移除了这一掩码，在强大的Decoder-only基座的基础上，通过进一步增量预训练来适配表示学习任务，实现了完全双向的注意力机制，让模型能够更全面、更精确地捕捉文本的深层语义，为高性能嵌入打下坚实基础。

1.2多种训练优化技巧

为解决嵌入模型训练中存在的若干问题，包括优化方向易被简单样本主导、难负样本信息量随训练衰减、负样本标签信号过于粗粒度等。微信的研究团队系统性地设计了一系列训练优化技术，这些技术是提升KaLM-Embedding性能的核心因素：

焦点式重加权机制：借鉴Focal Loss的精髓，持续聚焦于那些“困难”和“易错”的难样本，从训练原理上保证了模型的边界判别能力能够对标工业级检索器的要求。
在线困难负样本混合：针对离线挖掘的难负样本随着训练进行提供的信息量不足的问题，模型在训练过程中动态混合现有难负样本的特征，在极低计算成本下，实时合成信息量更多、难度更高的难负样本。
对比蒸馏：从更强的教师模型中学习细粒度语义差异，实现语义区分的飞跃。这使得模型实现了从“粗粒度语义对齐”到“细粒度语义理解”的质变。
套娃表示学习：对比学习和对比蒸馏训练目标引入套娃表示学习（Matryoshka Representation Learning），实现更鲁棒的多维灵活嵌入，可在裁切维度后依然稳健保持高性能。

1.3 渐进式训练策略

KaLM-Embedding训练的核心不在于堆量，而在于精炼训练流程。团队设计了一个渐进式“三阶段训练管线”，层层递进激发嵌入潜能：

阶段一：预训练（Pre-training）——在20+类弱监督大规模数据上学习通用语义嵌入能力，打好文本嵌入底座。
阶段二：微调（Fine-tuning）——在100+类高质量监督数据上进行任务对齐，包括检索、STS、分类等多样化任务，强化语义辨析能力和指令遵循能力。
阶段三：对比蒸馏（Contrastive Distillation）——从更强的教师模型中学习“细粒度语义差异”，实现语义区分力的进一步提升。

二、数据工程

2.1完全透明的高质量数据构建体系

“好模型，离不开好数据”。KaLM-Embedding团队建立了一个系统化的高质量训练数据构建体系。预训练覆盖 20+类弱监督语料（约470M样本），精调与蒸馏阶段覆盖100+类高质量监督数据（约6M样本）。数据覆盖多语言，多领域，多任务，长短文本。主要来源于公开数据集。引入任务指令、难负例挖掘、基于样例的多类别标注样本、Persona数据生成等策略，极大丰富任务多样性和数据的质量：

任务指令：在输入到模型进行编码之前，会将特定的任务指令（task instruction）前置于查询文本（query）之前。

难负例挖掘：在对比学习中，模型的目标是最大化查询与其正样本之间的相似度，同时最小化与负样本，尤其是难以区分的负样本之间的相似度。难负例挖掘用于提供具有挑战性的训练样本，以增强模型细粒度的区分能力。实现方式包括离线挖掘以及本工作提出的在线困难负样本混合。

基于样例的多类别标注样本：针对分类和聚类数据集，构建基于样例的双端分类样本；对同类别聚类的样本视作正样本，将其他类别或聚类里面的样本视作负样本。

Persona数据生成：通过引入具有不同角色（Persona）设定的合成数据，进一步增强训练数据的多样性，并扩大模型的领域覆盖范围。
多语言语料构建：为增强多语言理解能力，除引入直接使用原始的公开数据外，还通过合成与翻译扩充语料。具体而言，借助大语言模型将部分原有中英文公开训练数据翻译为多种语言，涵盖同语言及跨语言的查询-文档对。此外，针对如法律文书等数据稀缺的领域，基于开源文本合成相应的查询问题，以弥补训练样本不足。

三、实验表现

3.1主要结果

KaLM-Embedding-Gemma3-12B-2511的大尺寸多语言版本在MTEB多语言评测（Multilingual, v2）中达到均分和排名的第一！在涵盖全球1038种语言、共计131项任务的权威多语言评测体系 MTEB 中，KaLM-Embedding-Gemma3-12B-2511 表现卓越，综合得分分别达到72.32（Mean Task）与62.51（Mean TaskType），以显著优势获得全球最高分。值得关注的是，该模型在Bitext Mining、Classification、MultiLabel Classification 和 Retrieval 多项子任务中均取得领先优势，展现出在多语言语义理解与信息处理方面的顶尖技术能力。

在MTEB英文和中文benchmark上，轻量级的KaLM-Embedding-V2系列取得了同等参数规模下的双料冠军（< 1B parameters）；对比更大的嵌入模型，比如bge-multilingual-gemma2，在参数量仅有1/18的情况下，KaLM-Embedding-V2性能表现也丝毫不逊色。在具体的中英MTEB子任务上，KaLM-Embedding-V2.5在10/13 cases中，取得了最优或次优的表现。值得一提的是KaLM-Embedding-V2系列微调数据量仅6M，同时仅使用2-4 GPUs，充分说明精湛的训练技术和卓越的数据工程的有效性。

3.2分布外数据（OOD）评估

我们不希望打造一个仅在榜单上表现好的模型，更希望它在真实工业场景下也有强大性能。为评估模型在真实工业场景下的鲁棒性与泛化能力，我们在两个中文域外检索任务中进行测试：客服FAQ检索与游戏文档搜索。所有数据均来自真实业务场景，且未用于模型训练。结果显示，KaLM-Embedding-V2.5在相似规模下取得SOTA性能，展现出良好的泛化能力与鲁棒性。

3.3消融实验分析

基于KaLM-Embedding-V2.5的消融实验结果如下：移除焦点式重加权（focal-style reweighting）对模型性能的影响最为显著。相比之下，移除在线困难负样本混合或双向注意力机制虽然性能降幅相对较小，但仍呈现一致的下滑趋势。这表明，在线困难负样本混合能够在训练中持续引入信息量充足的困难负样本，而基于双向注意力机制生成的嵌入表示相较于因果注意力机制具有更优的性能。整体来看，实验结果验证了所提出的各项训练技术具备互补性，共同推动了KaLM-Embedding系列模型性能的提升。

在对比蒸馏阶段，KaLM-Embedding-V2.5通过结合蒸馏损失（KL）与常规对比损失（CL）的训练目标进行进一步优化。为评估各训练目标的贡献，我们开展了消融实验，结果如表7所示。实验表明，联合使用CL与KL目标能够取得最佳性能。仅使用CL会导致性能显著下降，而仅使用KL虽然下降幅度较小，但始终表现欠佳，在MTEB（eng, v1）任务中尤为明显。这说明KL是主要的学习信号，而CL则提供了辅助性的学习支持，二者结合能够实现最优的训练效果。

在蒸馏过程中，KL散度对温度系数（τ）较为敏感。下表展示了在“仅使用KL散度”设置下，不同τ值（τ=0.01为Low、τ=0.05为Mid、τ=0.1为High）对应的性能表现。可以看出，中等温度系数（τ=0.05）能够取得最优性能。若τ设置过小（如0.01），会导致教师分布过度尖锐，有效信息被抹平；而τ过大（如0.1）则会使分布过度平滑，削弱对比区分度。这两种情况均会降低学习信号的有效性，影响模型性能。

为实现灵活维度的嵌入表示，我们在对比损失与KL散度损失中引入了套娃表示学习（MKL）。为验证套娃嵌入及MKL的有效性，我们进行了降维实验与MKL消融分析，主要结论如下：首先，在分类、聚类、配对分类、语义文本相似度和摘要等任务中，使用小尺寸套娃嵌入时性能下降较为有限；而在重排序和检索任务中，性能下降更为显著。这表明语义匹配类任务对嵌入维度不敏感，即使采用低维套娃嵌入仍能保持良好性能，而检索类任务则更依赖高维表示。其次，相较于KaLM-Embedding-V2（无MKL）、V2及V1版本，KaLM-Embedding-V2.5在嵌入维度降低时始终表现出更优的稳定性。例如，在MTEB（cmn, v1）数据集上，从全维度降至64维时，V2.5的性能仅下降3.99%，而无MKL的对照模型下降幅度达5.67%。V2.5在重排序和检索任务中较小的性能衰减，是其在小维度嵌入上鲁棒性更强的主要原因。上述结果表明，MKL机制有效增强了KaLM-Embedding-V2.5在低维嵌入下的稳定性。综上所述，套娃嵌入能够提供灵活且紧凑的表示，在语义匹配任务中表现稳健，而检索任务则需借助高维嵌入以维持性能。

3.4可视化分析

为分析嵌入质量与下游任务性能的关系，我们在多种中英文聚类与分类数据上进行可视化。结果显示，KaLM-Embedding-V2.5的嵌入分布更紧凑、类别更分离，相比V1，能更好区分细粒度语义。在RedditClustering和CLSClusteringP2P等任务中，V2.5的语义聚类更清晰，进一步验证了其优越的语义表示能力。

更多实验结果和分析，欢迎大家阅读我们的技术报告：https://arxiv.org/abs/2506.20923

四、总结

我们欢迎业界研究者与应用开发者验证并使用KaLM-Embedding系列，共同促进Embedding模型与RAG技术的发展。期待与各界伙伴深化合作，促进学术交流与技术进步，一起构建更开放、更繁荣的Embedding技术生态。

五、参考资料

论文：KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model
https://arxiv.org/abs/2506.20923

KaLM-Embedding合集
https://huggingface.co/collections/KaLM-Embedding/kalm-embedding-68e251061c21d2a83c56fe70

KaLM-Embedding主页
https://kalm-embedding.github.io/

KaLM-Embedding-v2.5模型
https://huggingface.co/KaLM-Embedding/KaLM-embedding-multilingual-mini-instruct-v2.5

KaLM-Embedding-Gemma3-12B-2511模型
https://huggingface.co/tencent/KaLM-Embedding-Gemma3-12B-2511

微调训练数据
https://huggingface.co/datasets/KaLM-Embedding/KaLM-embedding-finetuning-data