独家对话：国产“紫东太初”大模型数据负责人朱贵波博士

亲爱的数据

2024-12-12 09:44发布于北京科技领域创作者

漫画原创：亲爱的数据

紫东太初3.0发布之后两周，

我再次和朱贵波博士在北京一家奈雪奶茶店面聊，

这也是我2024年北京的最后一场会面。

第二天，我踏上飞往美国旧金山的航班。

朱贵波博士是武汉人工智能研究院研究员，

担任国家科技创新重大项目课题负责人，

科技部重大专项任务负责人，

主持国家自然科学基金2项。

他全程负责，

紫东太初大模型数据团队组建与发展。

一直以来，

大模型数据负责人均异常神秘，

很多人说数据技术是工程，

但是，国内不少数据团队负责人，

拥有博士学位。

话题，从自研打开，

“自研，或者不自研大模型，

和数据有什么关系？”

“自研，你就会更懂模型，

进而更懂数据，进而更懂模型……”

他回答道。

这真是一个良性循环，我感慨了一句。

此前，我也深刻体会到，

数据是大模型最大的谜题之一，

你不能只了解模型，

不了解数据。

大模型与数据是密不可分的工程难题。

时间迈入2024年最后一个月，

我在美国湾区了解到，

很多湾区公司的“数据”不会，

也不可能交给外包团队，

由全职数据工程师，

与机器学习工程师处理。

哪怕数据进度落后，

阻碍了模型推进进度，

也不会改变这种方式。

那怎么办？

在数据上，

加人，

加资源。

比如，苹果公司的用户数据，

会被留在用户手机上，

公司无权接触，

更别说拿来给模型训练了。

北京时间12月11日晚间，

Siri整合ChatGPT，

为保护用户隐私，

OpenAI甚至无法存储用户请求数据。

而且，苹果公司总部的进厂访问，

也是全湾区最严格的，

没有之一。

同期，OpenAI也发射一波进展

强化微调（Reinforcement Fine-Tuning），

供用尤妙，

如果你不懂“强化学习”

肯定难理解“强化微调”。

朱贵波博士对强化微调的看法是：

模态数据都可词元化（Token），

已经可实现从单一模态编码，

到跨模态原生多模态解码，

支持多模态输入，

多种模态任务的学习；

强化微调将强化学习和监督微调有机结合，

大幅降低不同场景落地任务的数据需求量。

不过目前应用范围，

仍然偏向有明确目标和结果的任务。

我们来整体看看，

朱贵波博士的数据理念。

（一）实验越自由，越细致，越理解

自研大模型的整个过程，

是许多团队难以接触的深水区，

完整经历这个过程，

会大大加强对“数据情况”的把控力。

工程实现里藏着对数据理解的宝藏，

更大的实验自由度，

可以让人细致了解到：

大模型受不同数据影响后的状态，

甚至其中的小模块的微妙状态。

涉及的关键问题也很多，

根据不同的目标

（如对话、编程、数学题、

图像生成、科学计算），

简单说就是三点：

“比例”“时机”“平衡”，

所谓“配方”，

就是选择合适的数据和模型架构，

与模型任务合理配合。

所谓“时机”，

数据加入，

必与时宜，

流水线上不同阶段，

加什么样的数据。

所谓“平衡”，

大模型往往需要处理多种任务，

比如，对话生成、

代码生成、

数学推理、

图像生成等。

不同任务的数据规模、

质量、复杂性可能有很大差异。

多任务共享一个模型时，

用数据平衡任务间的竞争。

（二）配方

配方很重要。

大模型的“智商”，

取决于很多因素，

喂给它的数据比例是否合理很重要。

而语音大模型、

视觉大模型等不同类型的模型，

其数据配比不一样。

每种模型都需要自行摸索，

GPT也没有公开配比，

这也是各家做大模型的核心武器之一。

选择适当“配方”，

可大大提升模型的表现。

为此，近来，配方的工具有变化，

演进为“小模型”。

那么，在“小模型”之前都有什么办法？

答案是：

经验和直觉，

统计分析和可视化，

从公开论文或研究中学习其他团队的数据使用策略。

模仿知名数据集的分布。

以前，小模型的结果作为一种间接配方验证工具，

但这些小模型往往不是专门设计，

只是用作实验辅助。

为什么“小模型”作为调配方的工具，

相比传统方法，更先进？

小模型如同“味蕾”，

精准地感知“配方”的优劣，

灵活地调配和优化这些配方，

为大模型的“多口味融合”，

提供了科学依据。

而大模型要的结果，

则是一种复合味道的神秘口味。

也可以理解为，

小模型充当了“实验室助手”，

通过快速迭代和精细分析，

高效探索数据特性、

调整数据配比，

从而最大化大模型的效果。

摸索出的细节，

属于商业秘密。

数据集具体的数据配比，

这个也是各家做大模型的核心武器之一。

我也曾和武汉人工智能研究院副院长，

张家俊教授讨论过，

在当下，到底是模型结构重要，

还是数据重要，

如何重要，

这几个灵魂发问，

大家都很想有个深刻理解，

可能也想听听OpenAI的回答。

这个做法已成为行业共识，

就看谁的技术水平高。

（三）炼出“特种钢”

关键点一：求快。

用现有的部分数据，

训练一个小型模型，

这个模型具有快速迭代的特点。

它并不需要覆盖所有任务，

而是针对某些特定维度或类型的任务表现进行优化。

这个时候，

高频测试，

高频调整十分重要。

在这个过程中努力体验和掌握细节。

实验迭代速度快，

同样的时间周期，

积累的经验也就越多，

越能跑赢对手。

关键点二：敏感。

小模型会对特定数据类型，

例如长尾数据、

特定领域数据更敏感，

关键点三：没人会抗拒深入。

模型参数范围已经挺大了，

不是个别几个选择，

从5000万，到1个亿，

再到10个亿，70亿，100亿，

300亿，700亿，1000亿。

以一个1亿参数模型为例，

现有数据中，

互联网文本、代码、对话、论文等，

各类数据分别占多大比例？

如果固定其他数据类型不变，

只调整论文数据的占比，

观察模型性能的变化会怎样？

如果某类数据对目标性能贡献较大，

可以增加这一类型数据的比例。

通过小模型测试不同数据类型和配比，

研究其对模型效果的影响。

根据小模型的反馈，

优化各类数据的权重，

并快速验证效果。

如果某类数据，

对目标性能贡献显著，

就适当增加这一类型的比例。

关键在于，验证过程要始终确保，

数据优化方向与目标任务保持一致。

这就像炼钢：

配比得当，能炼出特种钢；

配比失误，可能只炼出废钢。

精准的数据调配，

就是打造“特种模型”的核心。

（四）观察与积累

复杂工程中，

一般实验结果是可以依赖的“真理”，

然而，有些数据，

“肉眼”观察是有效的

数据专家根据经验，经验越多越好。

比如，观察文本数据的时候，

或者文本数据中的语句通顺，

互联网来源的文本中，

是否含有低质广告。

可以看看数据中的知识含量，

又或者观察代码质量，

乱码含量，

小模型还能帮助发现，

原始数据中的很多问题，

比如标注错误、

类别分布不均、

重复数据等。

另外，

我和一个ToB软件公司的大模型专家聊过，

他说：“代码数据还有风格因素，

一个公司的代码风格往往是稳定的，

除了一般性的代码质量，

风格越接近，也算质量越好。”

这点上，朱贵波博士也认同。

不过，随着RAG方案的成熟，

可以在代码库中“搜索”，

找到相关代码模块，

语言模型根据已有代码，

生成所需要用的代码。

这个做法的关键在于，

你要有一个强大而全面的代码库，

代码库就是这种代码生成方案中，

最重要的“数据”。

说到底，能实现出来，

很大程度生取决于，

你有没有花心思，

花时间资源，

建设这个“数据集”。

别相信，

“构建一个 RAG 应用程序，

只需 10 行代码和10分钟”，

这种只是炒作，

构建真实世界的RAG，

没那么简单，

需要花费大量的时间和知识，

才能有效完成。

巧妇难为无米之炊，

RAG对数据也有要求，

哪怕减少了训练的工作量，

你也要在RAG方案中保证，

“有东西可以被搜索到”

无数据，

抓耳挠腮，

差数据，

效果倒退。

所以，

数据这门技术，

有专家，

有技术，

还不够。

（五）数据流水线

既然，数据和模型密不可分，

那就顺着模型训练方法来聊数据。

我们把模型训练的过程，

分成两个阶段，

也可认为是两个完全不同的流水线，

预训练（Pre-Training），

和预训练之后（Post-Train），

在预训练阶段，

仅用少量数据训练会发生欠拟合，

好比，杀鸡焉用牛刀，

数据中知识太少，

模型也没有学到什么。

这个阶段，

数据不能太完美，

有噪音的数据也需要。

不能把模型训练成，

“温室里的花朵”，

而要让模型更鲁棒。

在预训练阶段，

更多采用自监督学习，

通过设计伪标签或利用数据结构，

设计监督目标来训练模型，

显著减少了对人工标注的需求。

在预训练完成之后，

进入Post-Training阶段，

众所周知，模型规模较大的时候，

此时少量高质量数据的作用，

变得更加显著。

假如预训练理解为“学习知识”，

那Post-Training阶段就是在“教它”表达方式，

当然，表达方式有很多，

可以是教它说人话，

也可以是教它说脏话。

或者说，前阶段决定模型效果上限，

而后面这个阶段“学习”怎么表达为好。

我们先了解一下这个阶段的流水线有哪三类常见算法。

第一，有监督微调（SFT），

这是之前大家都很熟悉的老方法；

第二，人类反馈强化学习（HFRL），

很难，这三种方法中难度系数最高；

第三，DPO算法

（Direct Preference Optimization），

上手快，但DPO其实属于第二种，

我们拿出来单聊的。

（六）人类反馈强化学习

（网页截图的原图）

（局部放大后：OpenAI在收集数据，

它的回复你喜欢左边，还是右边）

这条路很难，

而OpenAI用强化微调的思路，

又刷新了难度。

强化微调这个新方法，

大幅加速更复杂问题的解决。

然而，原本人类反馈强化学习，

用得好的人就少，

对流水线和算力的要求又都更高，

很多团队不擅长。

人类反馈强化学习难点很多，

我看到的难点就有两个：

第一个，流水线环节多，

奖励模型（RM）是已经设计好的：

第一步，先给数据打标，喂数据，

第二步，想办法优化语言模型，

第三步，得到结果，判断好坏，

第四步，再把判断了好坏的数据，

喂进下一轮训练中，

为什么说训练方法让对应的数据技术更复杂？

因为训练好几轮，

每轮每个步骤都要控制好数据质量。

第二个，数据很难标准化，

标注质量的判断也比较难。

Instruct-GPT有11万个标注好的此类数据。

由工作结果和论文作者反推工作量，

OpenAI对此的投入是几十个专业博士。

为什么如此多呢？

因为涵盖了尽可能多的专业知识，

需要在一定数量的博士指导下构建RLHF数据集，

而这只是彼时2022年3月的投入，

此后数据细节透露的越来越少。

（七）DPO

DPO一来，

很多人都上手了。

所以也更流行。

其实，

人类在这个过程里发挥判断的功能，

所以说是人类偏好，

符合人类的价值观和期望。

简单举例子，

点赞，差评，

是人类网友的喜好，

也就是喜好数据，

据此来优化模型。

比如对话模型，

模型不知道对话质量到底好不好。

别人生病了，不能一直说：

“多喝热水。”

这多少有点敷衍。

生成这种回答，

算不上高质量。

技术上，

通过用户偏好优化生成质量。

DPO更适合需要从偏好或排名反馈中，

直接学习策略的场景。

人话版的理解就是：

偏好数据告诉模型“人类喜欢什么”。

DPO用概率模型把“喜欢”变成数学公式，

然后通过最大化这个公式的概率，

让模型学会生成更符合人类偏好的答案。

有一点很有意思，

DPO所用到的数据都是“偏好对”，

意味着本质上是个分类问题，

人类偏好很主观，

但是有用。

有限的数据意味着数据量少，

性价比自然就会高，

大幅降低了成本与难度。

而且，

数据越真实越好，

比如，直接自用户侧的数据，

比如，评论区。

我个人就很喜欢小红书APP的评论区，

罕见的“真话”集散地。

什么是“偏好对”的形式？

是两个选项之间“偏好关系”的一种数据形式，

通常用来表示，

“哪个更好”的信息。

偏好对强调比较，

而不是单独评估一个结果的优劣。

其核心在于输出之间的相对关系。

比如，对于对话模型生成的两段回答，

用户选择更自然、连贯的作为优胜。

偏好对不要求对选项的绝对评分，

而仅仅表示优劣关系。

这简化了数据标注的过程。

同时，数据还有几个重点：

第一点，测试评估集很重要，

贴近真实用户偏好，

第二点，对比很重要，

AB测试，

第三点，对比周期短很重要，

高频高效。

第四点，流程建得鲁棒很重要，

越简单越鲁棒。

DPO的流程不复杂，

所以，鲁棒性强，

大家比较爱用。

思考这样一个问题，

如果是一个小众问题，

世界上很少有人讨论，

也极度缺少偏好数据，

那怎么办？

这种问题用偏好模型不好解决，

也就是天花板低。

在前往全知全能目标的道路上，

这个算法是个辅助手段。

Post-Training过程中，

主流方向非常明确，

争议点不多，

大家都在使劲发力，

比谁搞得好，

跑得快。

当然，OpenAI“布置了新作业”，

强化微调。

不过，谭老师我，

还是坐等开源方案。

（完）

One More Thing

有读者和我说，

他们偏好对话形式，

于是，我直接给出和贵波博士的几轮对话：

如何看待现在的数据飞轮平台进展？

答：现在主流大厂都已经有相对成熟的配套工具，

比如腾讯2023年就建设数据飞轮平台。

百度在2024世界大会上，

宣布千帆大模型平台3.0，

有配套的万人标注能力，

真实客户反馈持续提升效果，

采样维度丰富，

有一定的评估自动化能力。

这里就不得不提Scale AI。

早在2016年数据标注起家，

现有巨大的业务量。

2024年收入预计突破10亿美元，

几乎完全来源于AI数据业务。

当所有人都在关注大模型怎么做的时候，

它始终将目光聚焦在数据。

这也从侧面证明美国软件生态的完善。

多年以来，

Scale AI将数据Know-How，

沉淀在数据平台上，

并向AI安全测试和评估服务扩张。

OpenAI，Anthropic，Waymo选它做官方供应商，

也是意料之内。

再回看国内，

暂无同规模同水平的对标供应商。

Q：Sora在数据处理方面也有一个很特别的地方，

就是他们将3D世界里拍摄的数据用来训练了，

你怎么看待这种跨领域的现象？

A：大家普遍认为要使用经过清洗、

去重的高品质“原生数据”，

也就是人类自然产生、

标注的数据，Sora的做法不限于此，

相当于将3D重建世界里的智慧，

借鉴到视频生成的领域中来了。

这个方法的确很创新，

我相信他们团队里面肯定有一些跨领域人才，

有可能还做过三维重建，

甚至游戏相关的事情。

那么他在训练大模型的时候，

发现文生视频要拥有一些世界模型的知识，

这种做法的技术本质是，

通过UE5、Unity等游戏引擎，

或AI大量生成合成数据作为模型训练集，

谷歌早期做自动驾驶的时候也有采用过类似办法。

因为自动驾驶研发阶段不可能让车上路，

他们就会用游戏引擎的方法，

先在游戏世界里搭建各种场景，

再从这些游戏场景中获取数据进行训练，

之后再用真实的场景数据进行微调。

不过我认为生成数据只是阶段性的需求，

真实数据是长期需求。

Q：如何看待国内国外数据处理领域技术代际差距？

A：2020年我们最早做大模型的时候差别更大，

“紫东太初”是全球首个图文音三模态大模型，

那时什么经验、工具都没有，

只能一点点去摸索，

包括如何构建跨模态的数据，

文本和语音如何对齐等。

当时不仅没有多模态方面的数据集，

连开源的数据集都很少，

根本不足以支撑大模型训练，

我们只能自己从网上一点点获取数据，

再去清洗。

比如第一个数据集“太素”最早的时候，

只有我和一个实习生在做，

当时处理好几亿的数据，

就花了一年多时间。

数据清洗，又接着花了大量时间。

起步的时候，

也没什么工具，

需要从零编写各种自动化工具，

非常繁杂，

心态简直就是：

“这破星球，我一分钟都待不下去了。”

就算工作不能立刻出效果，

也不算浪费时间，

起码累着了。

对比同期Scale AI，

已经在上一轮人工智能浪潮中积累了大量经验，

在数据处理领域已经形成了一个半自动化、

领先世界的数据产品，

我们还在追赶。

希望大家投入开源数据技术。

Q：如何看待OpenAI的24年12月OpenAI的强化微调？

A：这项技术能够为复杂的高技能领域，

比如，代码编程，

科学研究，

创建专家系统。

与使用静态数据集调整模型的传统微调不同，

这种方法利用强化学习通过迭代反馈来优化性能。

这使得模型能够动态适应复杂，

比如，和环境建立反馈，

电路是否正常运行，

编译器是否正常变编译；

有些数据以前仅能靠人类反馈，

有些数据可以靠机器反馈（是否运转）

从而使其在处理细微的，

特定领域的任务时，

更加有效。

或者说，

对于准确性、

适应性和领域专业知识

至关重要的行业来说，

它改变了游戏规则。

Q：“紫东太初”团队数据工作如何开始的？

A：必经的过程，

没有这个过程，

我们根本没办法获得高质量的数据集。

而且，永远不要低估“白手起家”的速度。

这几年从零起步的数据工作，

我们自己摸索出了一套数据处理方法，

以及数据集质量评估方法，

包括2022年，

我们就开始做图像描述（Captioning）了，

比如一只猫坐在草地上的图片，

我们会用模型去生成基于这张图片的描述。

而同期OpenAI还在做语言模型，

2023年才开始做图像描述。

起步虽然艰难，

但这几年我们已经取得了一些成果，

并且陆续开源了好几个数据集，

实现了整个数据处理方法上的闭环。

尤其是“太素”数据集，

已被字节跳动、腾讯、DeepSeek等公司的引用。

Q：这几个数据集大概是什么样的？

A：2022年9月，我们构建并开放了，

业内最大中文多模态数据集，

太素（TaiSu），

包括1.66亿图片数据集，

2.19亿中文描述。

一并拿出了大规模，

高质量中文多模态数据集，

自动收集框架，

包括大规模图文数据采集、

数据清洗去重、

图文模型的数据质量评价、

数据和模型的协同优化算法等。

相比同期工作，

“太素”数据集上训练的模型，

在多个零样本图文检索和图像分类任务上，

超过了Wukong数据集训练的模型。

2023年4月，

构建了百万级别的图文音强关联的，

多模态数据集。

之后，我们还基于大语言模型，

自动构建了千万级的全模态的训练数据集，

包括图像、视频、声音、

字幕等2700万全模态数据。

2023年11月，

开源了一个完整的数据抽取工具链EvalWeb，

可从网络噪声文本中，

抽取高质量中文预训练数据。

我们还开源了1.42TB规模中文预训练数据集，

ChineseWebText，

每一条均包含了质量打分，

可帮大模型研究人员，

依据新的阈值选择合适的数据。

此外，通过对ChineseWebText中，

前40%质量评分的数据进行过滤，

发布了一个600G大小的，

更高质量的数据子集Cleaner Subset，

该数据子集人工质量评估的准确率达到了90%。

同年同月，

研究院发布了一种指令数据选择方法，

核心就是从数据质量、覆盖范围、必要性三个角度，

对原始数据集进行数据过滤。

相较于自动识别方法，

在使用更少数据的情况下，

就可获取更好的效果。

我们构建“数据飞轮”，

也愿意与开源社区分享。

Q：太素2.0打算什么时候发布呢？

我看24年好像在憋大招。

A：明年初，你等我消息。

更多阅读：

《作者直到最近才费劲弄清楚的……》

长文系列

漫画系列

AI安全