报告主题:MetaMorph, 探索LLM隐藏的视觉能力, 从LLM到Unifed Model
报告日期:01月09日(周四)10:30-11:30
报告要点:
我们提出了一种简单高效的视觉指令微调扩展方法——视觉预测指令微调(Visual-Predictive Instruction Tuning, VPiT),能够快速将预训练的大语言模型(LLM)转化为统一的自回归模型,实现同时生成文本和视觉标记的能力。VPiT通过将图像与文本数据组织为指令形式的输入序列,教会LLM预测离散的文本标记和连续的视觉标记。我们的实证研究揭示了VPiT的几个有趣特性:
视觉生成能力作为视觉理解能力提升的自然产物可以高效地通过少量生成数据激活; 尽管理解与生成能力相辅相成,但理解数据对两种能力的提升效果均优于生成数据。
报告嘉宾:
童晟邦(Peter Tong)是纽约大学Courant计算机科学系的博士生,师从Yann LeCun教授和Saining Xie教授。他于2023年从加州大学伯克利分校毕业,获得计算机科学、应用数学和统计学三学位。童晟邦的研究兴趣包括世界模型、无监督/自监督学习、以及多模态模型。他在CVPR和NeurIPS等顶级会议上发表过论文,并获得了OpenAI Superalignment Fellowship资助。
更多热门报告
查看原图 263K