新智元报道
新智元报道
【新智元导读】Scaling Law撞墙,扩展语言智能体的推理时计算实在太难了!破局之道,竟是使用LLM作为世界模型?OSU华人团队发现,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。
Scaling Law又能续命了?
如何通过语言智能体的高级规划来Scaling推理时计算?
答案就是——使用LLM作为世界模型。
也就是说,使用GPT-4o来预测网站上操作的结果,可以提供强大的性能,同时还能提高安全性和效率。
近日,来自俄亥俄州立大学等机构的研究人员提出了一种全新的WebDreamer框架,它可以利用LLM作为世界模型,来预测网站上的交互结果。
论文地址:https://arxiv.org/abs/2411.06559
几天前,微软Ignite大会上,纳德拉曾表示,AI发展并没触及天花板,我们正见证推理时计算Scaling law的崛起。
语言智能体和数学推理的关键区别,就是交互
WebDreamer的核心,就是「做梦」
图1(a)反应式:由于智能体总是选择局部最优,没有前瞻性规划,往往导致次优结果。
图1(b)结合真实交互的树搜索:智能体通过主动网站导航探索多条路径,并允许回溯(用虚线箭头表示)。然而,在现实世界的网站中,由于不可逆操作的普遍存在,回溯往往不可行。
性能:在 VisualWebArena 和 Mind2Web-live 上表现远超反应式基线模型。 效率:与树搜索相比,仅需一半的交互次数。 安全:通过减少现实世界的交互,有效降低安全风险。 集成:可无缝作为多种智能体的插件运行,并补充树搜索智能体的功能。
准备
任务制定
通过模拟进行规划
基于模型规划的网络智能体
核心设计
图中说明了LLM模拟自然语言描述中三个候选操作的轨迹:
(1)单击「Office Products」
(2)单击「Electronics」
左右滑动查看
实验结果
有效性
在VWA数据集上,实现了33.3%的相对性能提升
在Mind2Web-live数据集上,相较于Reactive范式提升了2.9%(相对增益为13.1%)
效率
案例研究
作者介绍