南洋理工团队提出眼球运动计算模型,能够近似模拟人类的觅食行为和偏见

全文1199字,阅读约需4分钟,帮我划重点

划重点

01新加坡南洋理工大学团队提出名为视觉觅食器(VF)的计算模型,能够近似模拟人类的觅食行为和偏见。

02VF是一个基于Transformer的架构,通过强化学习训练,能够高效地执行混合视觉觅食。

03与传统计算机视觉系统不同,VF不仅涉及识别对象,还涉及理解这些对象如何影响后续的行动和决策。

04该模型模仿了人类的偏见和策略,为如何分配注意力和做出决策提供了良好的见解。

05未来研究计划将混合视觉觅食的研究扩展至受控实验环境中的简单刺激之外。

以上内容由腾讯混元大模型生成,仅供参考

在开车的同时扫描交通灯、停车位和餐馆,在一堆硬币中寻找特定数量的零钱,在杂货店购买一系列物品……

在计算机视觉领域,这些广泛地存在于人类日常生活中的行为,被称为混合视觉觅食。

它是一种结合了视觉搜索和决策制定的任务,参与者需要在多个不同的目标类型中,寻找所需的资源。

必须指出的是,这些目标的价值和普遍性可能会有所不同,并且,目标实例的确切数量通常也是未知的。

接下来,一个关键问题浮出水面,即在搜索过程中如何优先选择目标?

如果能够掌握内在规律,将为优化复杂环境中的搜索效率和决策带来极大助力。

对于上述问题,眼球运动可以提供一个独特的视角,洞察决策中涉及的感知、认知和评估过程。

图片图丨混合视觉觅食任务中眼球运动和决策的示例图(来源:arXiv)

基于此,新加坡南洋理工大学 Mengmi Zhang 助理教授和团队,提出一种名为视觉觅食器(VF,Visual Forager)的计算模型。

这是一个基于 Transformer 的架构,通过强化学习训练,能够高效地执行混合视觉觅食,以适应目标普遍性和价值的不同组合。

图片图丨 VF 的架构概览(来源:arXiv)

不同于以往依赖人类数据进行监督训练的视觉搜索模型,VF 没有在人类数据上进行训练,却能够近似模拟人类的觅食行为和偏见。

近日,相关论文以《凝视奖励:眼动作为混合视觉觅食中人类和人工智能决策的透镜》(Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging)为题在预印本平台 arXiv 上发布 [1]。

南洋理工大学 Bo Wang 是第一作者,Mengmi Zhang 担任通讯作者。

图片图丨相关论文(来源:arXiv)

显然,VF 这一关于眼球运动的计算模型,能给众多领域带来相应的变革潜力。

例如:

在人机交互领域,可以通过预测用户的注意力,并根据个人需求定制界面,以增强自适应系统。

在医学诊断和培训领域,可以复制专家的凝视模式,指导新手从业者并改进自动化诊断工具。

在机器人领域,能够使自主系统采用类似人类的策略来导航复杂的环境。

Mengmi Zhang 表示:“该模型模拟类人决策的能力,使其有别于传统的计算机视觉系统。”

也就是说,VF 不仅涉及识别对象,还涉及理解这些对象如何影响后续的行动和决策。

通过整合上下文信息和任务优先级,VF 模仿了人类的偏见和策略,为如何分配注意力和做出决策提供了良好的见解。

可以看出,这种范式转变,弥合了感知与认知之间的差距,为思考和行为更像人类的人工智能系统铺平了道路,彻底改变了需要视觉识别以外的领域。

在该研究的基础上,下一步研究人员计划将混合视觉觅食的研究,扩展至受控实验环境中的简单刺激之外。

参考资料:

1.Wang B, Tan D, Kuo Y L, et al. Gazing at Rewards: Eye Movements as a Lens into Human and AI Decision-Making in Hybrid Visual Foraging.arXiv:2411.09176, 2024.https://doi.org/10.48550/arXiv.2411.09176

支持:Ren

运营/排版:何晨龙