漫画原创:亲爱的数据
紫东太初3.0发布之后两周,
我再次和朱贵波博士在北京一家奈雪奶茶店面聊,
这也是我2024年北京的最后一场会面。
第二天,我踏上飞往美国旧金山的航班。
朱贵波博士是武汉人工智能研究院研究员,
担任国家科技创新重大项目课题负责人,
科技部重大专项任务负责人,
主持国家自然科学基金2项。
他全程负责,
紫东太初大模型数据团队组建与发展。
一直以来,
大模型数据负责人均异常神秘,
很多人说数据技术是工程,
但是,国内不少数据团队负责人,
拥有博士学位。
话题,从自研打开,
“自研,或者不自研大模型,
和数据有什么关系?”
“自研,你就会更懂模型,
进而更懂数据,进而更懂模型……”
他回答道。
这真是一个良性循环,我感慨了一句。
此前,我也深刻体会到,
数据是大模型最大的谜题之一,
你不能只了解模型,
不了解数据。
大模型与数据是密不可分的工程难题。
时间迈入2024年最后一个月,
我在美国湾区了解到,
很多湾区公司的“数据”不会,
也不可能交给外包团队,
由全职数据工程师,
与机器学习工程师处理。
哪怕数据进度落后,
阻碍了模型推进进度,
也不会改变这种方式。
那怎么办?
在数据上,
加人,
加资源。
比如,苹果公司的用户数据,
会被留在用户手机上,
公司无权接触,
更别说拿来给模型训练了。
北京时间12月11日晚间,
Siri整合ChatGPT,
为保护用户隐私,
OpenAI甚至无法存储用户请求数据。
而且,苹果公司总部的进厂访问,
也是全湾区最严格的,
没有之一。
同期,OpenAI也发射一波进展
强化微调(Reinforcement Fine-Tuning),
供用尤妙,
如果你不懂“强化学习”
肯定难理解“强化微调”。
朱贵波博士对强化微调的看法是:
模态数据都可词元化(Token),
已经可实现从单一模态编码,
到跨模态原生多模态解码,
支持多模态输入,
多种模态任务的学习;
强化微调将强化学习和监督微调有机结合,
大幅降低不同场景落地任务的数据需求量。
不过目前应用范围,
仍然偏向有明确目标和结果的任务。
我们来整体看看,
朱贵波博士的数据理念。
(一)实验越自由,越细致,越理解
别相信,
“构建一个 RAG 应用程序,
只需 10 行代码和10分钟”,
这种只是炒作,
构建真实世界的RAG,
没那么简单,
需要花费大量的时间和知识,
才能有效完成。
(网页截图的原图)
这条路很难,
让模型学会生成更符合人类偏好的答案。
如何看待现在的数据飞轮平台进展?
A:大家普遍认为要使用经过清洗、
Q:如何看待国内国外数据处理领域技术代际差距?
Q:如何看待OpenAI的24年12月OpenAI的强化微调?
Q:“紫东太初”团队数据工作如何开始的?
Q:这几个数据集大概是什么样的?
A:2022年9月,我们构建并开放了,
更多阅读:
《作者直到最近才费劲弄清楚的……》
长文系列
漫画系列
AI安全