1.多模态研究在过去十年中经历了迷茫和转机,目前的研究方向主要集中在利用视觉和语言的对齐关系。
2.2022年,研究者对单纯依靠视觉学出“CV领域的GPT时刻”表示悲观,认为纯视觉领域难以实现生成、理解和人类对齐的一体化。
3.然而,经过一段时间的探索,研究者发现更大的模型在推理能力方面表现先上升后平缓,再扩大反而下降,这被认为是next token prediction的本质缺陷。
4.为此,研究者引入强化学习来解决生成模型的“特征坍缩现象”,提高模型的通用对话能力、情商和知识量。
5.未来多模态研究的“GPT-4时刻”可能在于模型的在线学习/自主学习,以及多模型协作。
以上内容由腾讯混元大模型生成,仅供参考
多模态研究的10年史:迷茫和转机
02:00 张祥雨的学术经历和个人研究主线
12:25 CV(计算机学习)向NLP(自然语言处理)的学习历史
17:14 2022年我开始对单纯靠视觉学出“CV领域的GPT时刻”比较悲观
18:22 纯视觉这个domain有什么问题?GPT这样的生成模型你可以同时拥有生成、理解和人类对齐,而静态图像这三者是割裂的
24:23 我停止了对静态图像表征的研究,构思新的研究主题:短期内利用视觉和语言的对齐关系
29:10 经过尝试还是没做到图像的理解、生成和对齐一体化,我得到一个越来越强的生成模型,和一个越来越强的理解模型,没有起到叠加效果——为什么如此难以融合?
38:45 做了大半年十分迷茫,但在此刻出现了转机
训练大模型发现的怪事、蛛丝马迹与办法
41:11 训练过程中发现了一件百思不得其解的怪事:模型的通用对话能力、情商、知识量确实模型越大越强,但模型的推理能力(尤其是数学)表现是先上升后平缓,再扩大反而是下降
43:10 一些蛛丝马迹:更大的模型做数学题倾向于跳步,不老实
44:33 经过分析,这是next token prediction的本质缺陷
45:42 更大的压缩率未必对应更高的计算精度,我们来做一个思想实验
47:27 生成模型的“特征坍缩现象”
50:48 解决方案就是引入RL(强化学习)
53:28 o1的核心是思维链的pattern——“做思考模型,pattern is all you need”
01:01:52 当模型走到某一步,摆在面前有两个分支——走左边?还是走右边?——一个token之内到底能不能解决?(critical decision)——不能,所以引入反思pattern
01:10:16 o1范式的本质是一种Meta-CoT ,是CoT的CoT
对多模态研究的新思考和新进展
01:10:57 研究完o1,返回研究为什么视觉生成可控性这么差,就有了眉目
01:15:13 简单把生成和理解做到一起,难度非常大,缺失了重要一环CoT
01:15:54 去年中开启新的project:视觉理解(视觉空间的Long CoT)
01:19:06 尝试了半年,结果给大家透露一下吧!
01:21:30 o系列不仅泛化了domain,更吸引人的是泛化了pattern
01:22:16 博弈类问题是难以泛化的领域,有很多无效思考和低级错误
01:24:07 o1激发的反思pattern,在预训练语料中都有分布了
01:31:31 关于预训练加多模态数据有两种说法:影响了text智商?还是增强了scaling law?
01:36:43 往后两条腿走:扩充预训练语料和扩展动作空间
01:45:42 多模态的“GPT-4时刻”还有多久
预见下一个“GPT-4时刻”
01:46:56 long context和多模型协作
02:07:09 架构不重要,架构是服务算法和系统的(为什么我说Linear Transformer不本质)
02:08:30 下一个“GPT-4时刻”?模型的在线学习/自主学习
02:21:22 澄清一些有关Agent的观点
02:25:00 人虽然没有生成器官,但人有世界模型
02:26:34 我们的智能水平还在为视觉挣扎,机器人领域在抢跑