赵晨旭：非标模态的多模态大语言模型如何模拟人类主观感受

InfoQ

2025-01-03 13:17发布于北京InfoQ官方账号

分享嘉宾 | 赵晨旭

审校 | 李忠良

策划 | AICon 全球人工智能开发与应用大会

中国品牌在全球化传播中，需要理解不同文化背景下不同群体的情感反应，并采用全球消费者可接受的方式讲述品牌故事和传播文化。然而，现有 AI 技术主要关注客观事物解析，缺乏理解人类主观感受的有效手段。

为了缩小实际应用与技术之间的差距，明略科技构建了大规模视频主观多模态评估数据集 Video-SME，通过收集脑电波和眼动追踪数据，分析不同受试者对视频内容的认知理解程度，并自研超图多模态大语言模型（HMLLM），探索人口统计、视频元素、脑电图和眼动追踪指标之间的关联，弥合了模态间的语义差距，集成帧间信息以执行逻辑推理。实验结果证明了 HMLLM 的有效性，为机器模拟人类主观感受提供了新的可能性，有助于实现对国外 AI 技术的超越。

在不久前举办的 AICon 全球人工智能开发与应用大会上，明略科技多模态大模型部门负责人赵晨旭为我们带来了精彩专题演讲“非标模态的多模态大语言模型如何模拟人类主观感受”，演讲探讨了大语言模型缺乏主观感知能力的问题，基于现有评测标准的局限性，介绍了 Video-SME 数据集，以及超图多模态大模型的构建和评测主观指标的方法。通过 Video-SME 和其他多模态情感数据集的实验结果，展示了机器模拟人类主观感受的应用前景。

内容亮点：

走进多模态视频理解全新的未知领域
探索机器具备主观感受的全新课题

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。【PPT 不公开】

我们将依次探讨以下几个核心议题：首先，分析机器模拟人类主观感受的挑战及其重要价值。随后，我们将介绍一个创新的数据集 Video-SME，并展示我们为此开发的一种新方法——超图多模态大模型。此外，我们还将分享在各类主客观指标评测中取得的成果。最后，我们会讨论机器模拟人类主观感受技术在实际应用中的多种场景。

机器模拟人类主观感受的

难点与价值

我从学术界权威人士的观点开始讲起，引用李飞飞教授今年 5 月的一条 Twitter，她提出，即使参数众多的大语言模型，也难以捕捉到人类的主观感受。这反映了 AI 在视频内容理解上，一直缺乏对主观层面的深入探究和准确的测量标准。

目前学术界对主观感知能力的研究主要依赖于侧面观察，比如通过人们的情绪表现或媒体传播的信息来推断。这种观察方式存在局限性，因为人们可能会故意表现出某种情绪，或者他们的真实感受与外在表现不符。例如，在音乐领域，虽然乐理提供了一种理解情感的方式，但现代人的主观体验可能与乐理的传统解释大相径庭。我们的研究工作正是基于这样的认识，试图从人的主观视角出发，深入内部进行采集和观察，旨在开发出能够更准确地模拟和理解人类主观感受的技术和方法。

尽管现有的模型主要通过分析人物表情、画面风格、故事情节以及文字信息等媒介来传递情感，但这些媒介所传递的情感并不总是与人们实际接收到的情感完全一致。人们的感受会受到个人背景、喜好和状态的影响，因此，要真正理解人的主观感受，我们需要从不同用户的视角出发，分析他们自发的情绪反应。这种分析的挑战在于，即使是相同的视频或段子，不同的人群可能会有不同的反应。例如，男性可能觉得有趣，而女性可能不这样认为；不同年龄段的人，如老人和年轻人，对同一内容的感受也可能截然不同。这种差异性体现了真正的主观性。

模拟主观感知能力的难点主要体现在三个方面：首先是如何定义并获取用户的主观感知指标，这需要我们深入理解用户的个人背景和情感反应；其次是如何采集有效的主观感知数据；最后是如何实现 AI 模拟主观感知的能力。

Video-SME 概述

现有的视频理解数据集存在局限性，它们包含的元素通常比较单一，缺乏复杂性或故事情节，且问题设置往往只涉及显性的客观部分，如动作识别或人物身份，并未涉及到主观感受的维度。为了解决这一问题，我们采用了多种传感器和设备，记录受试者在观看目标视频时的脑电波和眼动数据。

广告视频内容复杂，分镜数量多，Video-SME 数据集包含了丰富的模态，在模态数量和内容复杂性上具有显著优势。此外，我们的评测标准不是基于预设选项，而是描述性的，这有助于更准确地捕捉和分析主观感受。

数据集的生成流程包括将视频拆分为多个分镜，将语音转换为文本，记录不同受试者的主观指标，如脑电波、认知、情绪和眼动数据，并与分镜内容对应。我们还针对这些主观指标设计了问答，以评估受试者的认知程度。

我们在数据集中设计了两种任务：主观任务和客观任务。

主观任务的核心是预测三个主观指标：认知、情绪和眼动注视比例。为了量化这些指标并使模型能够模拟它们，我们采取了一种直接的分类方法。具体来说，认知指标的量化是通过数值来判断的，数值大于 1 表示有认知，小于 1 则表示没有认知，这一标准参考了认知科学领域的相关研究。情绪和眼动注视比例的分类则是基于数据的正态分布特性。我们根据数据分布的自然划分，将情绪分为三类：消极、自然和积极。同样，将眼动注视比例也分为三类：完全没有注释、部分注释和完全注释。此外，我们进一步细分为两个协议：第一个协议 P1 不考虑受众的个体差异，而是假设一个通用的受众模型，预测通用受众可能产生的脑电变化；第二个协议 P2 则深入考虑了不同受众的特性，包括性别和年龄等因素，因此 P2 中的问题和答案更为丰富和多样。

客观任务则涉及到文本生成，但与常规的选择题不同，它是一个开放性的问题，要求模型生成描述性的答案。

超图多模态大模型概述

随着数据集的建立，我们着手探索如何有效解决模拟人类主观感受的挑战。我们的算法定位为一个针对垂直领域的多模态模型，而非通用基础模型。在这个过程中，我们采用了超图理论，它允许一条超边连接多个点，这在视频理解任务中尤其有用，因为视频帧与帧之间的关系可能跨越较长时间维度，涉及多个帧。

我们的算法架构分为训练和推理两个部分。在训练阶段，我们分为两个阶段。第一阶段专注于客观部分的训练，即对视频内容的客观描述，主要训练语言模型部分。第二阶段则专注于主观部分的训练，涉及超图学习模块（SAL-HL），该模块考虑观众的性别、年龄等信息，并以视觉编码器（如 VIT）作为输入，以脑电属性的真实标签作为监督信号。我们还额外训练了一个投影器（projector），并通过设置权重λ来调整超图模块对整个网络结构的影响。在推理阶段，与训练阶段相比，观众的信息（AAP）直接整合到提示（prompt）中，根据提问的提示直接给出答案。

以一个经典的沃尔沃卡车广告为例，该广告通过尚格云顿在两辆行驶的卡车间做一字马来展示卡车的稳定性。我们的模型能够从两个维度输出描述：客观描述，如“一个人在两辆行驶的卡车间做一字马”；主观描述，如“30 至 34 岁男性观看后的认知和情绪反应”。模型显示，男性观众能够很好地理解视频内容，并表现出较高的情绪反应，这可能是因为广告展示了卡车的稳定性和人类的力量感。

我们的模型还能展示不同性别和年龄段观众的眼动注释区域。通过热力图反映了观众在观看视频时的真实注意力分布，显示出不同人群对同一画面内容的关注点存在差异。例如，女性可能更关注男性人物身上的文本信息，而男性可能更关注产品本身，如卡车或可乐。这些发现为我们提供了深入理解观众主观感受的宝贵视角。

主客观指标评测结果

Video-SME 数据集通过几个关键指标来衡量模型的性能，其中包括客观描述和三种脑电反应：主观认知、主观情绪和眼动比例。在这些特殊任务上，商用模型如 Gimma 1.5、GPT-4o 在主观指标预测上的表现并不理想。经过训练和微调，我们的方法在这些任务上展现出了更好的效果。在 Video-MME 数据集上，由于主要涉及客观层面的理解，且形式为选择题，商用模型的表现普遍较好。在其他的公开数据集上的实验结果同样显示了我们模型的潜力。例如，在 VideoEmotion-8 数据集上，仅使用视觉模态，我们的模型就达到了 59.8% 的准确率；在 Video Conversation 基准测试中，我们的模型在多种任务上达到了 SOTA（State of the Art）。

我们还对超图模块进行了消融学习实验，发现当权重λ设置为 0.1 时，模型表现最佳。这表明超图模块在适当权重下能显著提升模型性能，但过高的权重可能会带来副作用。

在定性分析中，比如识别一种抹茶味巧克力派的视频中，我们的模型能够准确指出这是一种零食，且可能受到年轻人或儿童的欢迎，而其他开源模型则误判为冰激凌。在分析东鹏特饮的广告时，我们的模型能够识别出这是一种运动饮料，并与运动力量和冒险联系起来，而其他模型如 Gemini 则错误地将其归类为旅行或冒险。