心识周刊 | Anthropic 推出大模型-计算机直接交互、上海交大提出智能信息检索新范式…

图片

本周主要内容:Claude 让大模型与计算机直接交互、智能信息检索范式 Agentic IR、基于 API 的网页智能体、Coherent CoT、自然语言处理与人类行为、自我报告与内隐测量、人脑功能连接与记忆形成、多层表征顺序结构

AGI 每周速递

[1]  Anthropic 推出 Claude 新版本,让 LLM 直接使用电脑

标题:Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku

链接:https://www.anthropic.com/news/3-5-models-and-computer-use

单位:Anthropic

摘要:

Anthropic 宣布推出升级版的 Claude 3.5 Sonnet 和新型号 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 对其前身进行了全面的改进,在编码方面取得了特别显著的进步——这是它已经处于领先地位的领域。Claude 3.5 Haiku 的性能与之前最大的型号 Claude 3 Opus 的性能相当,在许多评估中,成本与上一代 Haiku 相同,速度相似。Anthropic 还在公开测试版中推出了一项开创性的新功能:计算机使用。现在,开发人员可以在 API 上使用 Claude 来指导 Claude 像人们一样使用计算机:通过查看屏幕、移动光标、单击按钮和键入文本。Claude 3.5 Sonnet 是第一个在公开测试版中提供计算机使用的前沿 AI 模型。在这个阶段,它仍然处于试验阶段,有时很麻烦且容易出错。Anthropic 将提前发布该功能以征求开发人员的反馈,并预计该功能将随着时间的推移而迅速改进。

[2]  Agentic IR:智能信息检索范式

标题:Agentic Information Retrieval

链接:https://arxiv.org/abs/2410.09713

作者:Weinan Zhang, Junwei Liao, Ning Li, Kounianhua Du

单位:上海交通大学

摘要:

下一代数字产品中的信息输入会是什么样子?自 1970 年代以来,用户对相关信息的访问一直依赖于特定域的信息检索 (IR) 架构。在过去的二十年里,现代 IR 系统(包括 Web 搜索引擎和个性化推荐系统)的出现极大地提高了从大量数据语料库中检索相关信息的效率。但是,这些 IR 系统的核心模式在很大程度上保持不变,依赖于筛选一组预定义的候选项。自 2022 年以来,大型语言模型 (LLM) 的突破开始改变信息的访问方式,建立了新的技术范式。在这篇立场文件中,研究介绍了智能信息检索 (Agentic IR),这是一种由 LLM 智能体的能力塑造的新型 IR 范式。Agentic IR 扩展了可访问任务的范围,并利用一套新技术来重新定义信息检索。作者讨论了 Agentic IR 的三种类型的前沿应用以及面临的挑战。本文认为 Agentic IR 有望产生创新应用程序,有可能成为未来数字生态系统的中心信息切入点。

[3]  超越浏览:基于 API 的网页智能体

标题:Beyond Browsing: API-Based Web Agents

链接:https://arxiv.org/abs/2410.16464

作者:Yueqi Song, Frank Xu, Shuyan Zhou, Graham Neubig

单位:卡内基梅隆大学

摘要:

网页览器是通往互联网的门户,许多人类活动都在这里进行。因此,在通过网页浏览与互联网交互的 AI 智能体方面进行了大量研究工作。但是,还有另一个专为机器与在线内容交互而设计的接口:应用程序编程接口 (API)。本文提出了一个问题 :如果我们承担传统上由浏览智能体处理的任务,并让 AI 智能体访问 API,那会怎样?为此,研究者提出了两种智能体:(1) 尝试仅通过 API 执行在线任务的 API 调用智能体,类似于传统的编码智能体,以及 (2) 可以通过 网页浏览和 API 与在线数据交互的混合智能体。在 WebArena(一种广泛使用且现实的 Web 导航任务基准)上的实验中,结果发现基于 API 的智能体优于 网页浏览智能体。混合智能体在任务中的性能几乎一致地优于其他两个智能体,因此与单独的网页浏览相比,绝对改进超过 20.0%,成功率为 35.8%,在与任务无关的智能体中实现了 SOTA 性能。这些结果强烈表明,当 API 可用时,它们提供了一种有吸引力的替代方案,而不是单独依赖 Web 浏览

[4]  Coherent CoT:更好的纠错和更准确的预测

标题:A Theoretical Understanding of Chain-of-Thought: Coherent Reasoning and Error-Aware Demonstration

链接:https://arxiv.org/abs/2410.16540

作者:Yingqian Cui, Pengfei He, Xianfeng Tang, Qi He, Chen Luo, Jiliang Tang, Yue Xing

单位:密歇根州立大学、亚马逊

摘要:

小样本思维链 (CoT) 提示在提高大型语言模型 (LLM) 的推理能力方面表现出强大的性能。虽然已经进行了理论调查来理解 CoT,但这些研究中使用的底层 transformer 将 CoT 推理过程隔离为单独的上下文学习步骤(逐步 ICL)。在这项工作中,研究者从理论上表明,与逐步 ICL 相比,如果集成早期步骤的推理 (Coherent CoT),transformer 会获得更好的纠错能力和更准确的预测。鉴于这种连贯的推理改变了 transformer 的行为,当演示示例在推理阶段被破坏时,作者进一步研究了使用 Coherent CoT 的 transformer 的灵敏度。本文理论结果表明,transformer 对中间推理步骤中的错误比最终结果更敏感。基于这一观察结果,作者通过在演示中结合正确和不正确的推理路径,提出了对 CoT 的改进。实验验证了所提出的方法的有效性。

意识科学 每周速递

[1]  自然语言处理的发展如何帮助我们理解人类行为

标题:How developments in natural language processing help us in understanding human behaviour

链接:https://doi.org/10.1038/s41562-024-01938-0

作者:Rada Mihalcea, Laura Biester, Ryan L. Boyd, Zhijing Jin, Veronica Perez-Rosas, Steven Wilson & James W. Pennebaker 

单位:密歇根大学、米德尔伯里学院、得克萨斯大学、马克斯·普朗克智能系统研究所、奥克兰大学

摘要:

人们使用语言的方式可以揭示他们的情感、社交行为、思维方式、文化和周围世界的线索。在过去的二十年里,社会心理学和计算机科学交叉领域的研究一直在开发工具,从书面或口头文本中分析自然语言,以更好地理解社会过程和行为。本综述的目的是简要概述目前使用的方法和数据,并讨论与更传统的方法(如调查或手工评分的语言样本)相比,自然语言分析可以揭示的潜在含义。

[2]  自我报告是比内隐测量更好的测量工具

标题:Self-reports are better measurement instruments than implicit measures

链接:https://doi.org/10.1038/s44159-024-00376-z

作者:Olivier Corneille & Bertram Gawronski 

单位:比利时新鲁汶天主教大学、德克萨斯大学奥斯汀分校

摘要:

自我报告测量直接要求受访者报告他们的心理内容,例如想法和感受。相比之下,内隐测量旨在在有利于自动加工的条件下使用定量指标(例如,响应时间、错误率和响应频率)来评估思想和感受。内隐测量现在广泛用于心理科学及其他领域,因为它们被认为在各种方面优于自我报告。本文中研究者认为,尽管人们对内隐测量充满热情,但自我报告通常是更好的测量选择。首先,内隐测量的使用通常基于对自我报告缺点的错误假设。其次,自我报告具有目前在内隐度量中无法比拟的有利特征。作者呼吁更复杂地使用自我报告,并在基础和应用研究中使用内隐测量时谨慎。

[3]  人脑功能连接的动态模式是个体记忆形成的基础

标题:Dynamic patterns of functional connectivity in the human brain underlie individual memory formation

链接:https://doi.org/10.1038/s41467-024-52744-1

作者:Audrey T. Phan, Weizhen Xie, Julio I. Chapeton, Sara K. Inati & Kareem A. Zaghloul

单位:美国国立卫生研究院、马里兰大学帕克分校等

摘要:

记住我们的日常经历涉及动态协调分布在不同大脑区域的信息。然而,研究大脑中连接的瞬时波动与情景记忆形成的关系一直具有挑战性。本文利用颅内脑电图的高时间精度来检查人脑功能连接的亚秒级变化,20 名参与者执行成对的语言记忆任务。研究者首先通过选择新皮层中的电极对来识别潜在的功能连接,这些电极对在随机记录段中表现出强相关性,并且具有一致的时间延迟。然后,作者发现,在任务过程中成功的记忆形成涉及特定于每个词对的功能连接的动态亚秒级变化。当参与者成功地从记忆中检索单词对时,这些动态变化的模式将恢复。因此,本文数据提供了直接证据,表明人脑连接动态变化的特定模式与成功的记忆形成有关

[4]  大脑在多步预期期间分层表征过去和未来

标题:The brain hierarchically represents the past and future during multistep anticipation

链接:https://www.nature.com/articles/s41467-024-53293-3

作者:Hannah Tarder-Stoll, Christopher Baldassano & Mariam Aly 

单位:哥伦比亚大学、多伦多贝雷斯健康科学中心、加州大学伯克利分校

摘要:

时间结构的记忆既可以规划未来事件,也可以回顾过去的事件。本文研究了大脑如何在预期期间灵活地表征过去和未来的扩展时间序列。参与者在沉浸式虚拟现实中学习了环境序列。成对的序列以不同的顺序具有相同的环境,从而支持特定于上下文的学习。在 fMRI 期间,参与者以给定的顺序预测即将到来的环境向未来迈进的多个步骤。颞叶结构在海马体和跨高阶视觉区域表征 (1) 双向表征,对过去和未来进行分级表征,以及 (2) 分层表征,过去和未来的进一步事件在连续更前的大脑区域表征。在海马体中,这些双向表征是特定于上下文的,并且对遥远环境的抑制预测了预期的响应时间成本。总之,这项工作阐明了我们如何灵活地表征顺序结构,以实现多个时间尺度的规划。

Mindverse Research

心识研究院

心识宇宙研究院,致力于在即将到来的元宇宙数字时代,研究和创造真正等价于人类意识水平的数字生命,目前已经综合多种研究进路和方法规划出一条通向AGI和人工意识的道路。在后续内容运营上,我们也会介绍和创造更多有关人工智能、意识科学、元宇宙方面最新的研究成果和原创内容。

欢迎有志者关注和加入我们的研究!