英伟达也来卷大模型!Llama 3.1 魔改版 Nemotron 发布,性能登顶三大基准

图片


英伟达也加入 LLM 军备竞赛了!🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型,在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一!并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet!

Nemotron 究竟有多强?

三大基准,开源模型全部第一: 截至 2024 年 10 月 1 日,Nemotron 在 Arena Hard 上得分为 85.0,AlpacaEval 2 LC(已验证)得分为 57.6,MT Bench (GPT-4-Turbo) 得分为 8.98,全部排名第一!

图片

Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准,并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名

Chatbot Arena总体排名

图片

轻松答对How many r in strawberry?: 它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题,而且不需要特殊的提示或额外的推理 token!😅

图片

Nemotron 的“秘密武器”:

RLHF 微调: Nemotron 使用了 RLHF (Reinforcement Learning from Human Feedback,人类反馈强化学习) 进行微调,具体来说是使用了 REINFORCE 算法

高质量的训练数据: 使用了 21,362 个 prompt-responses 数据对,这些数据都是为了让模型更符合人类偏好而设计的,具体来说就是更有帮助、事实正确、连贯,并且可以根据复杂性和详细程度进行定制。其中,20,324 个用于训练,1,038 个用于验证

HelpSteer2 偏好提示: 使用了 HelpSteer2-Preference 提示来引导模型生成更符合人类偏好的回复

想体验 Nemotron 的强大功能?

如果你更喜欢使用 Hugging Face Transformers 代码库,英伟达也提供了一个转换后的模型格式:Llama-3.1-Nemotron-70B-Instruct-HF

如何部署 Nemotron?

你需要一台至少配备 4 块 40GB 或 2 块 80GB 英伟达 GPU 的机器,以及 150GB 的可用磁盘空间

详细的部署步骤请参考 NVIDIA NeMo Framework 的文档

其他信息:

  • • 模型架构: Transformer,基于 Llama 3.1

  • • 输入: 文本,字符串格式,最大 128k tokens

  • • 输出: 文本,字符串格式,最大 4k tokens

  • • 软件集成: 支持 NVIDIA Ampere、Hopper 和 Turing 微架构,以及 Linux 操作系统。

  • • 推理引擎: Triton

  • • 数据收集方法: 混合(人工和合成)

  • • 数据标注方法: 人工


想了解更多细节?

论文地址:

模型主页:



⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~




图片

👇👇