斯坦福研究:当前教育AI研究成果因果证据不足

问AI · AI工具如何影响学生的知识迁移能力?

图片

2026年3月11日,斯坦福大学教育AI中心(AI Hub for Education)发布《K-12中AI的证据基础:2026年综述》(The Evidence Base on AI in K-12: A 2026 Review)报告,概述了当前与K-12教育环境相关的AI研究特征,并总结了探究AI工具如何影响师生的强因果研究主要发现。

该报告开篇指出,在K-12教育领域,教师、学校领导者及政策制定者正置身于一个迅速扩张的AI工具生态之中,却鲜有严谨的实证依据可供其决策参考。AI工具的发展速度已超越了研究人员对其评估步伐,这使得教育工作者在面对技术采纳、实施与投资等重大抉择时,往往只能依据极其有限的证据——即尚不明确究竟何种技术有效、适用于何人、以及在何种条件下有效。

尽管确凿的研究成果正在逐步涌现,但学校方面已面临着日益高涨的社会期许:既要培养学生以适应一个与AI深度融合的未来世界,又要着力应对那些早在AI时代到来之前便已显现的学生学业成绩下滑问题,同时还要顺应关于“面向未来的能力”这一概念不断演变的内涵。

为此,斯坦福大学教育AI中心在2025年初推出旨在帮助教育界领导查阅关于K-12教育领域AI应用的最新研究成果“研究资料库”平台(scale.stanford.edu/ai/repository),并每月更新,同时支持按应用场景、用户、年龄、目的、设计类型检索。

图片

该报告即基于这一资料库截至2025年10月收录的逾800篇论文的数据,并重点对有高质量因果证据的20篇文献(这些研究严格研究了AI工具如何影响学生或教育工作者)进行了分析。

该报告的研究发现具体如下:

一、教育AI研究论文增长迅速,聚焦学生用户,因果影响关注数学技能较多

该报告发现,近年来教育AI研究论文数量呈现较快增长速度,2023年1月,仅有28篇论文符合其“研究资料库”的收录标准——即涉及将AI或机器学习应用于K-12教育,或与该领域密切相关的研究。而在不到三年的时间里,这一数字已激增至超过800篇学术论文(涵盖预印本及期刊文章)。过去一年间,这一增长势头尤为迅猛,仅在2025年1月至9月期间,论文数量便实现了翻倍。

图片

从研究对象来看,大多数教育AI研究论文以学生为用户,占其“研究资料库”的59%,在探讨因果影响的论文中更是近四分之三(70%)聚焦于学生。不到一半的论文将教育工作者作为用户进行研究(占研究资料库论文的48%,以及探讨因果影响论文的40%)。此外,许多论文(23%)也考察了教师与学生共同使用的AI工具。针对学校领导、家长及看护者使用AI的研究则相对有限,仅占研究资料库论文总数的约3%。

图片

从研究学科来看,因果影响论文不成比例地关注AI对数学技能的影响。尽管研究资料库中仅有17%的论文探讨数学技能,但在涉及因果影响的论文中约有35%聚焦于数学技能。相比之下,尽管研究资料库中近50%的论文关注其他学科(如科学、编程、语言及社会研究),但在涉及因果影响的论文中,仅有25%关注此类成果。关注读写能力(20%)及社会情感(15%)的因果影响论文所占比例均在20%或以下。

图片

从研究学段来看,多数教育AI研究是在中等后教育环境中开展的,但其因果证据基础却更多地集中于高中情境(尽管研究资料库侧重于与K-12教育相关的研究成果,但也包括在中等后教育背景下开展的可能适用于K-12教育的研究)。

图片

从研究设计来看,K-12教育AI研究中只有一小部分是因果影响研究,大部分未评估影响。研究资料库中的大多数研究属于描述性研究(46%),或是技术性/计算性研究(46%)。相比之下,随机对照试验(RCT)和准实验设计(QED)类论文所占比例要小得多,分别为8%和5%。此外,许多论文也采用了其他定量研究方法(30%)。这表明,在现有的证据基础中,因果研究仍仅占相对较小的份额。在这些因果研究中,90%属于RCT,约五分之一(20%)属于QED(部分研究同时包含RCT和QED成分)。

图片

二、AI可提高学生学习成绩,但不一定具有转移性且可能影响深入思考

该报告通过对具有强因果证据的研究论文分析发现,AI对学生的影响主要体现以下方面:

1.即时成效

当学生能够直接使用AI工具(包括自动反馈工具、通用和辅导型AI聊天机器人)时,这些工具能显著提升他们在数学练习、编程项目及写作任务中的表现。

2.短期助益,迁移成疑

AI工具虽能在使用期间提升表现,但若在脱离AI辅助进行独立评估时,其成效则参差不齐。

这些发现表明,工具辅助的表现与持久学习之间存在着重要的区别。AI工具或许能帮助学生在当下更成功地完成任务,但当学生之后被要求独立完成任务时,这些成效并不总是能够持续。

一种可能的解释是:学生可能只是学会了如何配合工具进行操作,而非真正习得了独立完成任务所需的底层知识和推理技能。另一种可能的解释是:学生或许确实习得了相关内容,但其学习方式却无法适应情境变化或辅助工具缺失时的需求。即便在传统的教学模式下,实现知识迁移也绝非易事;而在当前研究的特定情境中,AI工具的介入可能会进一步增加复杂性,导致学生难以将技能内化为一种能够支持灵活运用的形式。

3.省力未必更优

AI工具虽能减轻学生的认知负担并营造积极的学习体验,但这往往是以牺牲深度思考为代价的。

4.教学设计至关重要

相比通用型AI工具,那些内置教学“护栏”的工具(例如,提供循序渐进的解题思路而非直接给出答案的辅导型AI聊天机器人)展现出了更广阔的应用前景。

学习科学为解读这些发现提供了一种方法,下表概述了一些关键的学习科学原理,以及与之相对应的AI机遇与风险。

学习原则

描述

AI的机遇与风险

知负荷理论(Sweller,1988)

通过平衡内在的、外在的和相关的(生产性的)负荷来管理有限的工作记忆容量。

AI能够通过高效地检索和整理信息来减轻不必要负荷,从而有可能释放认知资源以进行更深入的学习,但它也可能减少必要负荷——即学习所必需的积极努力过程。

维果茨基的最近发展区(Vygotsky,1978)

最佳学习区即学习者能够独立完成的任务与在适当支持下能够达成目标之间的区域(Vygotsky,1978)。

最有效的AI工具将在这个领域内提供脚手架,并逐步将责任移交给学习者,以防止学生产生依赖性。

学习迁移

将某一个情境中获得的知识应用到新的情境中,这通常需要明确的教学支持来连接不同的情境(Barnett & Ceci,2002)。 

一个关键问题在于:利用AI工具进行学习,究竟是能培养出学生可在新情境中加以运用的持久性知识与技能,还是仅仅造就出一种对工具的依赖性表现。

元认知

学生能够监控自己的理解情况,发现知识漏洞,选择合适的学习策略,并根据反馈调整学习方法。

元认知难以衡量,而AI可以对其大规模地测量。但与此同时,当AI工具替学生完成所有任务时,学生发展元认知技能的机会可能会减少。

专业知识逆转效应(Kalyuga2007

这种现象指的是,对初学者有效的教学技巧(例如示例教学法)对更进阶的学习者而言可能无效甚至适得其反(他们可能从独立解决问题中受益更多)。

有效的AI工具会根据学习者的知识水平调整其支持级别。

理想困难(Bjork,1994;Bjork & Bjork,2011)

学习中的某些挑战虽然感觉效果较差且即时表现较低,但却能带来更好的长期保持和迁移效果(Bjork,1994;Bjork & Bjork,2011)。

理想情况下,AI工具应该引入适当的合理难度,即便用户更喜欢进行较为轻松的练习。

支撑推理的工具可能有助于支持学习,而仅仅生成答案的工具可能会减少支持持久技能发展的认知努力。

三、AI对学生教育公平和社交情感的影响证据有限

该报告指出,目前的证据基础对于AI工具如何影响教育公平所提供的见解十分有限。AI工具具备大规模提供个性化学术支持的潜力,这有望惠及那些无法获得私人家教或其他补充资源的学生。

除是否拥有工具本身之外,机会和使用公平性取决于多种因素。学生能否从AI工具中获益,可能会因技术基础设施、数字素养以及能否在校内校外均使用到这些工具而有所差异。语言无障碍性也是一个关键问题,因为许多工具都是针对英语优化的,可能会为英语学习者提供质量较低或有偏见的支持。同样,AI工具虽有望为残障学生提供新的辅助支持,但当前的研究尚未深入探究其对这些学生所产生的影响。

这些研究空白导致若干关于公平性的问题仍未得到解答:AI工具究竟是更有利于使那些本身就拥有更强学业基础和校外支持的学生,还是能够帮助资源匮乏的学生实现“公平竞争”?成本与许可模式又将如何决定哪些学校能够获取更高质量的AI工具?在当前关于因果关系的学术文献中,鲜有研究探讨这些公平性影响。

此外,该报告指出,关目前于AI对认知发展以及学生情感或社会福祉所产生影响的因果证据有限。这一研究空白凸显了K-12教育从业者及政策制定者亟待解答的一系列重要问题:当学生与AI进行互动时,哪些条件有利于其亲社会性行为的发展?AI“社交伙伴”会对儿童及青少年产生怎样的影响?此外,无论是个人设备还是学校配发设备,哪些做法能最有效地促进学生在课外安全地使用AI?

四、AI可以为教育工作者提供有意义的支持

该报告通过对具有强因果证据的研究论文分析发现,AI对教育工作者的影响体现在以下方面:

1.AI能够减少教师在日常工作上花费的时间,或转移教师的工作重心,且没有证据表明会造成教学质量下降。

2.AI可以对教学和学生进步情况提供自动反馈,从而提高教学质质量和学生成绩。

3.AI能够提供实时的教学建议,从而提升教师的教学实践和学生的学习成果,尤其是在基于信息交流的环境中。

4.AI教学辅助工具似乎对评级较低和经验较少的教师最为有益。

另外,该报告指出,目前的研究尚未明确AI工具究竟是能帮助教育者培养持久的教学技能,还是会让他们更加依赖自动化指导。进一步的证据有望阐明AI在不同学校情境下如何影响教师的教学实践与学生的学习成效,以及这些工具究竟是缩小了还是加剧了既有的教学质量差异。

该报告最后指出,AI的发展速度和类型可能会影响证据随时间积累的方式。研究AI对社会学习、动机以及人类能力增强所产生的影响依然是一项重要的优先事项。

理解AI的长期影响(如技能发展、毕业、中等后教育阶段的持续深造,或劳动力市场表现)可能需要多年的纵向研究。同样,评估AI工具是否会改变学生的认知发展或独立解决问题的能力需要更长的时间跨度。

然而,AI系统的快速发展意味着研究结果可能与特定的工具版本及实施环境密切相关。这就造成了长期研究(评估持续影响)和短期研究(提供当前使用工具的及时证据)之间固有的矛盾。随着时间的推移,对AI教育作用的更清晰理解,不仅取决于工具是否平均有效,还取决于它们何时、如何以及对哪些人群最重要。

回答这些问题将是从早期的混杂研究结果转向更清晰的影响结论的核心。



资料来源:

Lily Fesler,etc. The Evidence Base on AI in K-12: A 2026 Review. The existing research on the impacts of AI on students and teachers. https://scale.stanford.edu/sites/default/files/The+Evidence+Base+on+AI+in+K-12+Report.pdf