1.北京大学人工智能研究院提出LIFT框架,将长上下文知识注入模型参数,提升大模型长文本能力。
2.LIFT通过动态高效的长输入训练,平衡模型参数知识和原有能力,有效提升长文本理解能力。
3.为此,研究团队提出门控记忆适配器(Gated Memory Adapter),以平衡长文本记忆和能力。
4.实验结果显示,LIFT在LooGLE和Longbench等流行基准测试中显著提升了短上下文LLMs在长上下文任务中的表现。
5.然而,LIFT仍然存在一定局限性,如何设计更通用的辅助任务和更好的适配器来平衡记忆和能力,是未来的研究重点。
以上内容由腾讯混元大模型生成,仅供参考
题目: LIFT: Improving Long Context Understanding of Large Language Models through Long Input Fine-Tuning 文章链接: https://arxiv.org/abs/2502.14644
动态高效的长输入训练。LIFT 能够通过调整模型参数,动态适应新的长输入文本,将其作为新的知识源,无需进行资源密集型的 long-context adaptation。针对每一篇需要处理的长文本,LIFT 通过分段的 language modeling 以及精心设计的辅助任务来微调模型,实现用模型参数来记忆和理解长文本,从而避免过长的 context 造成的推理复杂度提升和长程依赖丢失。
平衡模型参数知识和原有能力。由于模型原有参数(比如 Llama 3 8B)通常显著大于记忆长文本所需的参数量,全参数微调面临过拟合长文本而损失模型基础能力的风险。为了在模型原有能力和微调后新的参数内知识之间找到平衡,我们提出了一种专门的参数高效微调模块——门控记忆适配器(Gated Memory Adapter),它能平衡原始模型的 In-Context Learning(ICL)能力和 LIFT 训练后对长输入的记忆理解能力。
在流行的长上下文任务上取得了巨大提升。在几个广泛认可的长上下文基准集(例如 LooGLE [3]、Longbench [4])上的评估表明,不同 LLM 始终能通过 LIFT 在常见的长/短依赖问答和摘要等通用任务上受益。例如,在非常具有挑战性的 LooGLE 长依赖问答上,相较仅通过 ICL,LIFT 过后的 Llama 3 8B 的正确率从 15.44% 提升至 29.97%。在 LooGLE 短依赖问答上,LIFT 将 Gemma 2 9B 的正确率从 37.37% 提升至 50.33%。
LIFT 极大提升了短文本模型在 LooGLE 上的表现。LIFT 稳定提升了被测模型在 ShortQA 和 LongQA 中的平均指标。值得注意的是,Llama 3 在 LongQA 上的指标从 15.44% 提升至 29.97%,Gemma 2 在 ShortQA 上的指标从 37.37% 提升至 50.33%。
LIFT 提升了短文本模型在 Longbench 的大多数子任务上的表现。研究团队从 LongBench 中选取了 5 个具有代表性的子任务进行测试,任务包括多篇文章间的多跳推理、阅读理解和概括、检索召回等,Llama 3 通过 LIFT 在其中 4 个子任务上均有提升。
LIFT 的效果与模型的原有能力以及测试任务有关。LIFT 虽然普遍提升了模型的长文本能力,但在部分子任务上仍有改进空间。通过分析各个子任务,研究团队认为与测试问题相似的辅助任务可以促进模型关注对测试任务有用的长上下文信息,有助于下游任务表现。