英伟达也加入 LLM 军备竞赛了!🚀 他们基于 Llama 3.1 打造的 Nemotron-70B-Instruct 开源模型,在 Arena Hard、AlpacaEval 2 LC 和 MT Bench 三大自动对齐基准测试中全部登顶开源第一!并且吊打闭源 GPT-4o 和 Claude 3.5 Sonnet!
Nemotron 究竟有多强?
三大基准,开源模型全部第一: 截至 2024 年 10 月 1 日,Nemotron 在 Arena Hard 上得分为 85.0,AlpacaEval 2 LC(已验证)得分为 57.6,MT Bench (GPT-4-Turbo) 得分为 8.98,全部排名第一!
Arena Hard 使用数据管道从 Chatbot Arena 中的实时数据建立高质量基准,并以其对 Chatbot Arena Elo 分数的预测能力以及有用模型和较无用模型之间的可分离性而闻名
Chatbot Arena总体排名
轻松答对How many r in strawberry?: 它可以正确回答“草莓里有多少个 r” 这个一直困扰各种先进模型的问题,而且不需要特殊的提示或额外的推理 token!😅
Nemotron 的“秘密武器”:
RLHF 微调: Nemotron 使用了 RLHF (Reinforcement Learning from Human Feedback,人类反馈强化学习) 进行微调,具体来说是使用了 REINFORCE 算法
高质量的训练数据: 使用了 21,362 个 prompt-responses 数据对,这些数据都是为了让模型更符合人类偏好而设计的,具体来说就是更有帮助、事实正确、连贯,并且可以根据复杂性和详细程度进行定制。其中,20,324 个用于训练,1,038 个用于验证
HelpSteer2 偏好提示: 使用了 HelpSteer2-Preference 提示来引导模型生成更符合人类偏好的回复
想体验 Nemotron 的强大功能?
如果你更喜欢使用 Hugging Face Transformers 代码库,英伟达也提供了一个转换后的模型格式:Llama-3.1-Nemotron-70B-Instruct-HF
如何部署 Nemotron?
你需要一台至少配备 4 块 40GB 或 2 块 80GB 英伟达 GPU 的机器,以及 150GB 的可用磁盘空间
详细的部署步骤请参考 NVIDIA NeMo Framework 的文档
其他信息:
• 模型架构: Transformer,基于 Llama 3.1
• 输入: 文本,字符串格式,最大 128k tokens
• 输出: 文本,字符串格式,最大 4k tokens
• 软件集成: 支持 NVIDIA Ampere、Hopper 和 Turing 微架构,以及 Linux 操作系统。
• 推理引擎: Triton
• 数据收集方法: 混合(人工和合成)
• 数据标注方法: 人工
想了解更多细节?
论文地址:
模型主页:
⭐星标AI寒武纪,好内容不错过⭐
用你的赞和在看告诉我~