始智AI wisemodel.cn开源社区
随着大模型(LLMs)技术的迅猛发展,基于检索增强生成(RAG)架构的应用日益增多。而文本嵌入模型(Embedding模型)在RAG流程中扮演着关键角色,决定了私域知识向量化的准确性。
当下,衡量Embedding模型的标准是中文语义向量评测基准C-MTEB,这一基准也是目前业内评测文本向量模型性能的重要参考。
模型地址:https://wisemodel.cn/models/IEIT-Yuan/Yuan-embedding-1.0
01
Embedding模型的技术核心
02
增强中文文本检索能力的嵌入模型
“源”Yuan-EB 在HuggingFace的C-MTEB榜单中排名第一
采用bert-large模型作为基础模型,模型参数量为326M,使用FC Layer将输出维度从1024扩展到1792。Yuan-embedding-1.0的最大输入长度为 512 个 token,使用模型最后一层输出所有token的平均值作为Embedding向量;
使用多尺度表征学习(Matryoshka Representation Learning, MRL)技术来实现灵活的输出维度长度,提升模型表征性能和鲁棒性,表示维度配置为256、 512、 768、1024、1536 和 1792;
2. 训练数据构建
在构建数据集时,我们采用了对比学习的方法,创建了包含中文问题(query)、正确回答(positive response)和与问题意思相近但不正确的回答(negative response)的训练样本。这个过程的核心在于挖掘难以区分的负样本,即那些与正确回答相似但不相关的回答。
通过两个阶段的微调来实现这一目标:第一阶段使用大规模的对比学习数据集,通过生成相似问题并筛选出低相似度的问题来构建负样本;第二阶段则基于C-MTEB训练数据,利用Yuan2.0-M32重写问题和答案,并通过向量化和索引技术来提取难负样本。最终,通过评估模型来选择那些得分低于正确回答的样本作为负样本,以此来提高模型的区分能力。
3. 模型微调
Yuan-embedding-1.0模型的微调采用了最大排名损失(MRL)方法,并支持多种向量维度。在微调过程中,特别关注批量大小和负样本数量的选择,因为这些参数对模型的训练效果有显著影响。通过实验确定了最佳的参数设置,以确保模型性能。
正负样本的选择策略也经过了消融实验的验证,以确保模型能够从标注的正样本和随机选择的负样本中学习。此外,为了克服显存限制和提高计算资源的利用率,我们还应用了梯度检查点技术,这允许我们在有限的内存资源下训练更大的模型。
4. 实验结果
03
构建大模型知识库应用
更高效:
数据处理工具从多样的企业数据中,高效地生成微调数 据和知识库数据,效率提升40%。
微调工具支持千亿参数模型的高效微调。知识检索工具 检索准确率达90%。
支持API、对话式UI的应用交互方式,满足企业系统接 入要求。
更好用:
一站式大模型开发部署平台,EPAI提供先进的生成式AI 开发工具链。 EPAI已适配十余种大模型,包括Yuan、Qwen、 Llama、GLM等。行业领先大模型的开箱即用。 数据处理、模型微调、检索增强、应用构建等功能可视 化,降低了生成式AI应用的构建门槛。
内置多元多模的大模型计算框架,降低企业跨算力平台 迁移、多元模型部署适配的成本。 EPAI的算力调度管理系统,支持大型数据中心的数千卡 多元算力集群管理。
EPAI提供企业级数据安全防护,通过权限管理、数据加 密、内容审查等方式,保护企业数据、模型的安全。 构建既能充分利用数据价值,又能保护用户隐私、符合 法规要求的数据安全环境。
04
延伸阅读:MTEB榜单
1. MTEB榜单
MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的评估指标的合集,是目前业内评测文本向量模型性能的重要参考。
MTEB的目的是为了评估向量模型在不同向量任务上的表现,希望作为寻找适用于不同任务的通用文本向量的入口,评测任务包括涵盖112种语言的58个数据集。
Retrieval任务的8个子任务简介如下:
编辑丨赵雅鑫