英伟达也来卷大模型！Llama 3.1 魔改版 Nemotron 发布，性能登顶三大基准

AI寒武纪

2024-10-17 13:53发布于江苏

英伟达也加入 LLM 军备竞赛了！🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型，在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一！并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet！

Nemotron 究竟有多强？

三大基准，开源模型全部第一： 截至 2024 年 10 月 1 日，Nemotron 在 Arena Hard 上得分为 85.0，AlpacaEval 2 LC（已验证）得分为 57.6，MT Bench (GPT-4-Turbo) 得分为 8.98，全部排名第一！

Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准，并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名

Chatbot Arena总体排名

轻松答对How many r in strawberry?： 它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题，而且不需要特殊的提示或额外的推理 token！😅

Nemotron 的“秘密武器”：

RLHF 微调： Nemotron 使用了 RLHF (Reinforcement Learning from Human Feedback，人类反馈强化学习) 进行微调，具体来说是使用了 REINFORCE 算法

高质量的训练数据： 使用了 21,362 个 prompt-responses 数据对，这些数据都是为了让模型更符合人类偏好而设计的，具体来说就是更有帮助、事实正确、连贯，并且可以根据复杂性和详细程度进行定制。其中，20,324 个用于训练，1,038 个用于验证

HelpSteer2 偏好提示： 使用了 HelpSteer2-Preference 提示来引导模型生成更符合人类偏好的回复

想体验 Nemotron 的强大功能？

如果你更喜欢使用 Hugging Face Transformers 代码库，英伟达也提供了一个转换后的模型格式：Llama-3.1-Nemotron-70B-Instruct-HF

如何部署 Nemotron？

你需要一台至少配备 4 块 40GB 或 2 块 80GB 英伟达 GPU 的机器，以及 150GB 的可用磁盘空间

详细的部署步骤请参考 NVIDIA NeMo Framework 的文档

其他信息：

• 模型架构： Transformer，基于 Llama 3.1
• 输入： 文本，字符串格式，最大 128k tokens
• 输出： 文本，字符串格式，最大 4k tokens
• 软件集成： 支持 NVIDIA Ampere、Hopper 和 Turing 微架构，以及 Linux 操作系统。
• 推理引擎： Triton
• 数据收集方法： 混合（人工和合成）
• 数据标注方法： 人工

想了解更多细节？

论文地址：

模型主页：

⭐星标AI寒武纪，好内容不错过⭐

用你的赞和在看告诉我～

👇👇

查看原图 76K