1.清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」,实现非H卡设备运行原生FP8模型的突破。
2.实测数据显示,用赤兔引擎部署DeepSeek-671B满血版推理服务,相比于vLLM部署方案,GPU数量减少50%,输出速度提升3.15倍。
3.赤兔引擎代码已发布至GitHub开源社区,针对多款国产芯片特别优化的版本也将相继对外开源。
4.由此,国产大模型、国产引擎、国产芯片的完整技术闭环正在加速形成。
5.开源共建有助于弥合国产芯片与国际先进芯片之间的「时间差」,降低用户的算力成本。
以上内容由腾讯混元大模型生成,仅供参考
机器之心原创
作者:闻菲、张倩
「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。
随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的关键瓶颈。
今天,清华系科创企业清程极智与清华大学翟季冬教授团队联合宣布开源大模型推理引擎「赤兔」(Chitu),率先实现了非 H 卡设备(英伟达 Hopper 架构之前的 GPU 卡及各类国产卡)运行原生 FP8 模型的突破。
在 A800 集群上的实测数据显示,用赤兔引擎部署 DeepSeek-671B 满血版推理服务,相比于 vLLM 部署方案,不仅使用的 GPU 数量减少了 50%,而且输出速度还提升了 3.15 倍。
https://github.com/thu-pacman/chitu
多元算力适配:不仅支持 NVIDIA 最新旗舰到旧款的多种型号,也为国产芯片提供优化支持。 全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。