知行汽车科技(01274)作为共同第一作者提出的Strong Vision Transformers Could Be Excellent Teachers(ScaleKD),以预训练ViT(视觉Transformer)模型作为教师,CNN网络作为学生进行学习。推进异构神经网络间知识蒸馏研究的具体方法,被收录于NeurIPS 2024(第38届神经信息处理系统会议)。
这是知行汽车科技(01274)构建大模型体系能力的成果之一。2024年年中,知行汽车科技(01274)开始从资源、组织等多线程入手,打造面向大模型的研发架构体系,并完成组织架构调整,引入包括清华大学计算机博士背景的大模型架构师等多位大模型与自动驾驶领域专家,构建起对齐主流的研发组织架构和专家人才库。
如何使端模型也获得相应的知识和泛化能力,知识蒸馏(Knowledge Distillation)技术应运而生:将大模型学到的知识迁移到一个更小的模型中,保持性能的同时降低模型部署难度和计算开销。
知行汽车科技(01274)被NeurIPS 收录的ScaleKD,正是一种大模型知识蒸馏方法。从前沿学术研究出发,知行汽车科技(01274)将根据实际中使用的端模型,构建对应的老师模型进行训练,获得更强的能力,从而通过知识蒸馏提高端模型的学习效果和速度。
查看原图 225K