心识周刊 | 复旦大学证明大模型全自动科学研究能力、用于长文本建模的记忆增强检索 MemLong……

图片

本周主要内容:MemoRAG、智能体工作流记忆 AWM、LLM 与科学发现、多模态记忆与个性化问答、认知的起源、冥想与意识、前运动皮层-海马、非周期性活动

AGI 每周速递

[1]  MemoRAG: 通过记忆启发式知识发现迈向下一代 RAG

标题:MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

链接:https://arxiv.org/abs/2409.05591

作者:Hongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

单位:北京人工智能研究院、中国人民大学

摘要:

检索增强生成 (RAG) 利用检索工具访问外部数据库,从而通过优化的上下文提高大型语言模型 (LLM) 的生成质量。但是,现有的检索方法本身就受到限制,因为它们只能在明确陈述的查询和格式正确的知识之间执行相关性匹配,而无法处理涉及模糊信息需求或非结构化知识的任务。因此,现有的 RAG 系统主要对简单的问答任务有效。在这项工作中,作者提出了 MemoRAG,这是一种由长期记忆赋能的新型检索增强生成范式。MemoRAG 采用双系统架构。一方面,它采用轻量级但长距离的 LLM 来形成数据库的全局内存。一旦任务被提出,它就会生成草稿答案,为检索工具提供线索,以便在数据库中查找有用的信息。另一方面,它利用了一个昂贵但富有表现力的 LLM,它根据检索到的信息生成最终答案。在这个通用框架的基础上,研究者通过增强其线索机制和记忆能力来进一步优化 MemoRAG 的性能。实验证明,MemoRAG 在各种评估任务中实现了卓越的性能,包括传统 RAG 失败的复杂任务和通常应用 RAG 的简单任务。



[2]  智能体工作流记忆

标题:Agent Workflow Memory

链接:https://arxiv.org/abs/2409.07429

作者:Zora Zhiruo Wang, Jiayuan Mao, Daniel Fried, Graham Neubig

单位:卡内基梅隆大学、MIT

摘要:

尽管基于语言模型的智能体具有解决 Web 导航等实际任务的潜力,但当前的方法仍然难以处理具有复杂动作轨迹的长距离任务。相比之下,人类可以通过从过去的经验中学习可重用的任务工作流程并使用它们来指导未来的行动,从而灵活地解决复杂的任务。为了构建同样可以从此过程中受益的智能体,本文引入了智能体工作流记忆 (AWM),这是一种诱导通常重用的例程(即工作流)的方法,并有选择地向智能体提供工作流以指导后续生成。AWM 灵活地适用于离线和在线场景,其中智能体从事先的训练示例或动态测试查询中引入工作流。研究者在两个主要的 Web 导航基准测试上进行了实验:Mind2Web 和 WebArena,共同涵盖了来自旅游、购物和社交媒体等 200+ 领域的 1000+ 任务。AWM 在 Mind24.6Web 和 WebArena 上将基线结果显著提高了 51.1% 和 21.1% 的相对成功率,同时减少了成功解决 WebArena 任务的步骤数。此外,在线 AWM 在跨任务、网站和域评估中具有强大的泛化能力,随着训练测试任务分配差距的扩大,在线 AWM 超过了 8.9 到 14.0 个绝对点的基线。



[3]  LLM 可以产生新颖的研究思路吗?

标题:Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

链接:https://arxiv.org/abs/2409.04109

作者:Chenglei Si, Diyi Yang, Tatsunori Hashimoto

单位:斯坦福大学

摘要:

大型语言模型 (LLM) 的最新进展引发了人们对其加速科学发现潜力的乐观情绪,越来越多的工作提出了自主生成和验证新想法的研究智能体。尽管如此,没有评估表明 LLM 系统可以迈出产生新颖的、专家级想法的第一步,更不用说执行整个研究过程了。本文通过建立一个实验设计来解决这个问题,该设计在控制混杂因素的同时评估研究想法的产生,并在专家 NLP 研究人员和 LLM 构思智能体之间进行首次点对点比较。通过招募 100 多名 NLP 研究人员撰写新颖的想法和对 LLM 和人类想法的盲评,本文获得了关于当前 LLM 研究构思能力的第一个具有统计学意义的结论:研究者发现 LLM 生成的想法被认为比人类专家的想法更新颖(p < 0.05),而在可行性方面被判断得稍弱。仔细研究智能体基线,本文确定了构建和评估研究智能体的开放问题,包括 LLM 自我评估的失败以及缺乏多样性。最后,作者承认人类对新颖性的判断可能很困难,即使是专家也是如此,并提出了一种端到端的研究设计,招募研究人员将这些想法执行到完整的项目中,使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差异。



[4]  OmniQuery:上下文增强捕获的多模态记忆以实现个人问答

标题:OmniQuery: Contextually Augmenting Captured Multimodal Memory to Enable Personal Question Answering

链接:https://arxiv.org/abs/2409.08250

作者:Jiahao Nick Li, Zhuohao Jerry Zhang, Jiaju Ma

单位:UCLA、华盛顿大学、斯坦福大学

摘要:

人们经常通过照片、截图和视频来捕捉回忆。虽然现有的基于 AI 的工具支持使用自然语言查询这些数据,但它们大多仅支持检索单个信息,例如照片中的某些对象,并且难以回答更复杂的查询,这些查询涉及解释事件序列等相互关联的记忆。本文进行了一项为期一个月的日记研究,以收集真实的用户查询,并生成了与捕获的记忆整合所需的上下文信息的分类法。然后,研究者介绍了 OmniQuery,这是一种新颖的系统,能够回答需要提取和推断上下文信息的复杂个人记忆相关问题。OmniQuery 通过集成来自多个互连记忆的分散上下文信息来增强单个捕获的记忆,检索相关记忆,并使用大型语言模型 (LLM) 来全面回答。在人工评估中,结果显示了 OmniQuery 的有效性,准确率为 71.5%,它的表现优于传统的 RAG 系统,在 74.5% 的时间内获胜或打平。

意识科学 每周速递

[1]  论认知的起源

标题:On the Origin of Cognition

链接:https://link.springer.com/article/10.1007/s13752-024-00472-6

作者:Arto Annila

单位:赫尔辛基大学

摘要:

要解释认知进化的原因,首先需要分析什么是解释。在物理学方面,力是因,物质状态的变化是果。因此,任何事件序列,从光子吸收到集中意识,从化学反应到集体行为,或从神经元雪崩到生态位适应,都可以理解为从一种状态到另一种状态向热力学平衡的演变,其中所有力最终相互统计。从这种无标度的物理学角度来看,能量流经那些手段和机制,就像自然而然地选择了它们一样,从而在最短的时间内实现了平衡。然后,认知机制也被理解为是从向自由能最小值(相当于熵最大值)的普遍驱动力中出现的。热力学过程的最小时间性质导致数据中无处不在的模式,这也是认知过程的特征,即以 S 形方式累积的偏态分布,因此主要遵循幂律。本着这种精神,源自开放系统统计物理学的热力学解释了进化如何导致认知,并提供了对认知轻松、偏见、不和谐、发展、可塑性和主观性的见解。



[2]  神经调控和冥想:促进健康和理解意识和大脑的综述

标题:Neuromodulation and meditation: A review and synthesis toward promoting well-being and understanding consciousness and brain

链接:https://www.sciencedirect.com/science/article/pii/S0149763424003312?via%3Dihub

作者:Kilian Abellaneda-P´erez, Ruby M. Potash, Alvaro Pascual-Leone, Matthew D. Sacchet

单位:巴塞罗那大学、哈佛医学院等

摘要:

冥想的神经科学正在提供对冥想对健康的有益影响的洞察力,并为对意识的理解提供信息。然而,需要进一步的研究来阐明将大脑活动与冥想联系起来的机制。非侵入性脑刺激 (NIBS) 为因果研究冥想的神经机制提供了一种很有前途的方法。先前的 NIBS 冥想研究主要针对额叶和顶叶皮层,这表明有可能通过 NIBS 增强冥想的行为和神经效果。此外,NIBS 揭示了长期冥想者的独特神经特征。尽管如此,NIBS 冥想研究的方法学差异为明确解释先前的结果带来了挑战。未来的 NIBS 研究应进一步调查冥想的核心基质,包括特定的大脑网络和振荡,以及高级冥想的因果神经机制。总体而言,NIBS 冥想研究有望加强基于冥想的干预措施,以支持非临床和临床人群的福祉和复原力,并揭示冥想和意识的大脑-心理机制。



[3]  通过前运动皮层-海马耦合在情景记忆中的具身

标题:Embodiment in episodic memory through premotor-hippocampal coupling

链接:https://www.nature.com/articles/s42003-024-06757-7

作者:Alizée Lopez-Persem, Emmanuel Mandonnet, and Emmanuelle Volle

单位:洛桑联邦理工学院、日内瓦大学等

摘要:

情景记忆 (EM) 使我们能够记住和重温过去的事件和经历,并与皮质-海马体恢复编码活动有关。虽然 EM 是建立跨时间自我意识的基础,但这种说法及其与基于身体信号的代理感 (SoA) 的联系尚未经过实验测试。使用实时感觉运动刺激、沉浸式虚拟现实和 fMRI,研究者操纵了 SoA,并报告了在保留的 SoA 下编码的场景更强的海马恢复,反映了识别任务中的回忆表现。本文将 SoA 与 EM 联系起来,表明海马恢复与运动前皮层(一个关键的 SoA 区域)的恢复相结合。研究者在一名严重健忘症患者中扩展了这些发现,该患者的记忆缺乏对 SoA 的正常依赖性。EM 中的前运动皮层-海马耦合描述了在检索过去的发作期间,身体自我编码的一个关键方面如何在神经上恢复,从而实现跨时间的自我意识。



[4]  评估和比较非周期性神经活动的测量

标题:Evaluating and Comparing Measures of Aperiodic Neural Activity

链接:https://www.biorxiv.org/content/10.1101/2024.09.15.613114

作者:Thomas Donoghue, Ryan Hammonds, Eric Lybrand, Leonhard Washcke, Richard Gao, Bradley Voytek

单位:加州大学圣地亚哥分校、马克斯·普朗克人类发展研究所等

摘要:

神经电生理记录包含突出的非周期性活动,即不规则的活动,没有特征频率,这被称为 1/f(或 1/f 样活动)、分形或“无标度”活动。以前的工作已经确定,神经活动的非周期性特征是动态和可变的,与(受试者间)健康老龄化和临床诊断有关,并且(在受试者内)跟踪意识状态和行为表现。然而,有各种各样的概念框架和相关方法可用于分析和解释非周期性活动 - 例如,时域测量,如自相关、分形测量和/或各种复杂性和熵测量,以及频域中非周期性指数的测量。对于这些不同的测量方法如何相互关联以及它们在多大程度上反映数据的相同或不同特性缺乏清晰的理解,这使得跨方法的结果综合变得困难,并使我们对非周期性神经活动的特性、生物学意义以及人口统计学、临床和行为相关性的整体理解复杂化。为了解决这个问题,本文系统地调查了测量非周期性神经活动的不同方法,研究者使用具有统计代表性的时间序列模拟来评估和比较这些方法。在此过程中,作者在度量之间建立了一致的关系,表明它们捕获的大部分内容反映了共同的差异,尽管有一些明显的特质。从广义上讲,频域方法更特定于数据的非周期性特征,而时域测量更受振荡活动的影响。我们通过将测量应用于一系列经验 EEG 和 iEEG 数据集来扩展此分析,并复制模拟结果。最后,我们总结了多种方法之间的关系,强调了重新检查先前发现和未来工作的机会。


心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。

欢迎有志者关注和加入我们的研究!