始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将努力打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划,自研的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎发布到wisemodel.cn社区,方便大家更容易获取和使用。
Phi3-mini是微软发布的自研的3.8B 参数的轻量模型,训练数据量为 3.3T Tokens,默认上下文长度为 4K,同时发布了基于LongRope扩展到128K上下文长度的版本。Phi3-mini虽然只能3.8B的参数量,但性能却能媲美Mixtral 8x7B 和 GPT-3.5 等模型,在许多评测结果中也超过了Meta刚刚开源Llama3-8B的模型。Phi3-mini模型的性能将成为轻量模型的新里程碑。Phi3-mini系列模型已经用户发布到了wisemodel.cn开源社区。
模型地址:
https://wisemodel.cn/models/IsaacWeiRan/Phi-3-mini-4k-instruct
https://wisemodel.cn/models/IsaacWeiRan/Phi-3-Mini-128K-Instruct
https://wisemodel.cn/models/sivdead/Phi-3-mini-4k-instruct-gguf
phi3-mini模型基于与Llama-2相似的模块结构构建,并采用了相同的tokenizer,词汇量达到320641。因此为Llama-2系列模型开发的所有软件包均直接适用于phi-3-mini。该模型拥有3072的隐藏层维度,32个head和32个layer,使用BFLOAT16格式训练了总共3.3T tokens。phi3-mini模型也经过了聊天场景的微调优化。
phi3-mini模型进行4 bit量化,量化之后内存占用仅约为1.8GB。在iPhone 14上部署phi3-mini进行了测试,在完全离线的状态下,可以达到每秒处理超过12个tokens的速度。
在训练方法论方面,Phi3-mini通过使用高质量的训练数据来提升小型语言模型的性能,而不是单纯追求模型参数规模。Phi-3的训练数据包括了从各种公开互联网来源中筛选出的高质量网页数据和LLM生成的合成数据。
预训练分为两个阶段,第一阶段主要使用网络资源,以训练模型基础知识和语言理解;第二阶段将更多过滤的网络数据(第一阶段使用的子集)与一些合成数据合并,这些数据教会模型逻辑推理和各种小众技能。
Phi3训练中将训练数据校准到更接近小型模型的“数据最优”阶段,特别是过滤网络数据以包含正确的“知识”水平,并保留更多可能提高模型的“推理能力”的网页。例如,特定日子英超联赛的比赛结果可能是训练模型的好数据,但实验中会需要移除这种信息,为小型模型留出更多的“推理”能力。下图将实验的方法与Llama-2进行了比较。
通过标准开源基准测试来衡量phi3-mini模型的推理能力(包括常识性推理和逻辑推理),下面的表格将phi-3-mini与phi-2、Mistral-7b-v0.1、Mixtral-8x7b、Gemma 7B、Llama-3-instruct-8b以及GPT-3.5等模型进行了对比。所有测试结果都通过相同的测试流程获得,以保证结果的可比性。由于评估方法的细微差异,这些数据可能与其他已发布的数据有所不同。目前的标准做法是采用少样本提示法在温度设置为0的条件下对模型进行评估。这些prompt和样本数是微软内部用于评估语言模型的工具的组成部分,并没有对phi-3模型的评估流程进行特别优化。每个基准测试的k-shot样本数量都有记录。
Phi-3-mini的整个开发过程包括在模型后期训练时确保安全性、进行红队对抗测试、自动化测试,并在多个负责任人工智能的潜在风险类别中进行了评估。模型评估过程中修改并利用了有关助益性和无害性的偏好数据集,以及多个微软内部生成的数据集,以应对安全后期训练中的潜在风险类别。
微软内部的独立红队在模型后期训练过程中反复审查phi3-mini,以识别和改进潜在的风险点。根据反馈还定制了额外的数据集以解决他们提出的问题,进一步完善了后训练的数据集。这一系列措施显著降低了模型产生有害响应的比率,如下图所示。
wisemodel相关
系统升级