直播｜Meta&纽约大学, 探索大模型隐藏视觉能力, 从LLM到Unifed Model

智源社区

2025-01-06 18:00发布于北京智源社区官方账号

报告主题：MetaMorph, 探索LLM隐藏的视觉能力, 从LLM到Unifed Model

报告日期：01月09日（周四）10:30-11:30

报告要点:

我们提出了一种简单高效的视觉指令微调扩展方法——视觉预测指令微调（Visual-Predictive Instruction Tuning, VPiT），能够快速将预训练的大语言模型（LLM）转化为统一的自回归模型，实现同时生成文本和视觉标记的能力。VPiT通过将图像与文本数据组织为指令形式的输入序列，教会LLM预测离散的文本标记和连续的视觉标记。我们的实证研究揭示了VPiT的几个有趣特性：

视觉生成能力作为视觉理解能力提升的自然产物可以高效地通过少量生成数据激活；
尽管理解与生成能力相辅相成，但理解数据对两种能力的提升效果均优于生成数据。

基于上述发现，我们训练了MetaMorph模型，在视觉理解和生成任务中均取得了具有竞争力的表现。在视觉生成任务中，MetaMorph不仅能够利用LLM预训练过程中积累的世界知识和推理能力，还克服了其他生成模型常见的失败模式。我们的研究结果表明，LLM可能拥有强大的“先验”视觉能力，通过相对简单的指令微调过程，即可高效适配于视觉理解与生成任务。

报告嘉宾：

童晟邦（Peter Tong）是纽约大学Courant计算机科学系的博士生，师从Yann LeCun教授和Saining Xie教授。他于2023年从加州大学伯克利分校毕业，获得计算机科学、应用数学和统计学三学位。童晟邦的研究兴趣包括世界模型、无监督/自监督学习、以及多模态模型。他在CVPR和NeurIPS等顶级会议上发表过论文，并获得了OpenAI Superalignment Fellowship资助。

更多热门报告

查看原图 263K