1.MIT的76页深度报告发现,AI辅助创新显著增长,但加剧了不同水平科学家产出的差异。
2.AI技术提升了效率,但因为霸占了研究中创意生成的部分,剥夺了科学家们在研究工作中的乐趣。
3.研究发现,AI主要惠及原本生产力就高的科学家,从而加剧了不平等。
4.然而,科学家们越来越相信AI会提高所在领域的生产力,并计划重新学习新技能。
5.作者认为,领域知识在评估AI建议时的重要性,以及人类判断力的持续需求。
以上内容由腾讯混元大模型生成,仅供参考
新智元报道
新智元报道
【新智元导读】MIT的76页深度报告!AI辅助创新显著增长——这毋庸置疑。但,值得注意的是,AI加剧了不同水平科学家产出的差异,这与科学家的判断力强相关,意味着缺乏判断力的科学家在未来可能会被慢慢淘汰……此外,作者还发现,AI虽然提升了效率,但因为霸占了研究中创意生成的部分,剥夺了科学家们在研究工作中的乐趣。
研究背景
目前AI4Science已经如火如荼。最新的诺贝尔物理与化学奖也颁发给了AI,这说明AI有望带来科学突破,尤其是在药物发现和材料科学等领域,因为这些领域的模型可以在现有实例的大型数据集上进行训练。
测量策略及研究设计
作者将材料发现过程分为三类任务:创意生成、判断和实验。
材料发现、专利申请及产品创新
数量显著增长
材料质量有所提高
AI工具对于创新的具体影响
AI加剧了科学家产出的差异
下图展示了引入AI前后材料发现率的分布。分布向右移动且更偏右,表明高能力的科学家从该工具中获得了更多收益。
下图展示了回归估计结果,将研究人员是否被分配使用AI工具的状态与初始生产力的分位数相结合。
结果表明,处于底部三分之一的研究人员几乎没有从该工具中受益,而最高分位的科学家产出增加了81%。因此,90:10研究表现的比率增加了一倍以上。足以说明,这一工具加剧了不平等的现象。
核心要素:科学家的判断能力
材料发现涉及三个任务阶段:创意生成、判断(即识别出有前景的候选化合物的能力)和实验。生产力的差异反映了科学家在各阶段中的不同能力。
首先,作者设计了一个方法,用于估算每位科学家在预处理期内的任务特定研究能力。由于实验阶段仅包含例行测试,他将重点放在创意生成和判断上。
作者进行了多项测试来验证这些能力测量。最后得到如下图表:
上图显示了科学家在创意生成和判断两方面技能的相关性。这两个指标之间呈正相关(r=0.42, p<0.00),这表明科学家在这两类任务中具备某种基础性的专业能力,使他们在两方面都有较高的生产力。
但关联度远低于1。这表明,虽然一些科学家在这两项任务上都表现较好,但他们不一定在两者上都同样出色。这种较低的相关性揭示了每个科学家在不同任务上可能具有「比较优势」,即一些科学家在「创意生成」方面更擅长,而另一些人在「判断」方面表现更佳。因此,科学家可以通过发挥自己在特定任务上的优势来实现专业化。
所以,不能简单地将「技能偏向」看作一维的。要更细致地理解AI在科学研究中所补充的技能,必须关注科学家在不同任务中的具体能力。
这意味着,AI并不是对所有科学技能都有帮助,而是特别能加强那些能与AI合作或被AI支持的特定技能,比如判断能力。在研究中探索这些不同的技能有助于更好地理解人类和AI如何协同工作。
在获得任务特定的研究能力估计后,作者研究了哪些技能导致了AI的异质性影响。为此,作者在科学家层面估计了一个回归模型:
其中,yst是科学家s在月t内发现的材料数量,Dst是一个表示是否受到AI影响的处理指示变量,和
分别表示科学家在创意生成和判断任务上的估计研究能力。这些能力测量标准化为均值为零、标准差为一。主要关注的系数是β4和β5,它们捕捉了AI对任务特定技能的差异性影响。
得到的结果如下表。当增加一个标准差时,AI处理效应提升了14.8个百分点;而
增加相同幅度仅导致3.5个百分点的提升。两个交互项的系数均为正且显著,但判断任务的影响明显更大。
判断能力差异解释了AI对初始生产力异质性影响的80%以上。这些发现表明,在解释AI对不同科学家影响的差异时,判断能力起到了核心作用。
科学家与AI的协作
为了解这些结果背后的机制,作者研究了科研中科学家与AI的协作机制。
创意生成时间被大大压缩
首先,他记录了AI加入前后科学家工作精力分配的比例变化。
下图展示了科学家在研究过程中分配到创意生成、判断和实验任务上的时间份额变化。这些数据来源于科学家的活动日志。
由此可见,在引入AI之前,科学家将39%的时间用于创意生成,但在模型引入后,这一比例降至16%以下。同时,判断任务所占时间从最初的23%增加到了样本结束时的40%。实验任务的时间份额也从37%增加到44%。另外,研究总时长保持不变。
下图展示了在判断任务上具有较大比较优势的科学家(即高/
值)和较小比较优势的科学家在任务构成上的变化。
虽然所有科学家的时间分配都发生了显著调整,但相比其他科学家,那些在判断技能方面具有比较优势的科学家将更多的工作时间从创意生成任务转移到了判断任务上。具体而言,这些科学家在时间分配上的转变比判断技能较弱的科学家多了46%。
判断力来自领域知识
接下来,作者建立了一个简单的优先搜索框架来分析这种转变背后的原因。
他发现判断力强的科学家测试的候选材料数量较少,但发现的可行化合物更多。具有较强判断力的科学家学会了优先选择有前景的AI建议,而其他人则在测试错误建议上浪费了大量资源。这导致的发现率差距解释了工具的异质性影响。
此外,作者还发现,在引入AI后,科学家在评估AI生成的化合物方面的能力差异逐渐显现并扩大。
对比后发现,判断力较强的科学家在处理期内迅速提高了他们对AI建议的排序和优先级设置,而判断力较弱的科学家在评估上未见明显改善。
这个能力差距导致顶尖评估者能够有效地筛选出更多高质量的化合物,而评估能力较弱者则在筛选上表现接近随机。
为了探索为何部分科学家的判断力更优,作者设计了一份问卷调查实验室的科学家们,以了解他们在评估过程中的想法和经验。
调查数据显示,这些判断力上的差异主要来自科学家的领域知识。
进一步分析中,作者考察了四种可能的专家能力来源。
结果如上图所示,高判断能力的研究人员在评估模型生成的候选物时更重视科学训练和类似材料的经验。
此外,他们的「直觉或第六感」也与判断能力呈正相关(直觉被视为隐性知识的代表)。
然而,AI技术的使用经验对这种差异没有解释力,因为所有科学家报告的此前接触AI的经验都较少。
与此一致的是,判断能力的差异随着时间逐渐显现。支持领域知识重要性的证据表明,处于判断能力上四分位数的科学家发表与其研究材料相关学术论文的概率是其三倍多。
这些结果强调了领域知识在评估AI建议时的重要性。机器学习的视角表明,顶尖科学家在材料设计问题上能够识别出模型未捕捉的特征。
因此,将人类反馈纳入算法预测中可能是科学发现的一个潜在途径。从经济学的角度来看,这些发现展示了算法与专业知识在创新过程中的互补关系,尤其强调了「判断模型建议」这一新研究技能的重要性,这种技能能够增强AI技术的效力。
有人曾推测大数据和机器学习会使领域知识过时,但在材料科学领域情况并非如此。事实上,只有具备足够专业知识的研究人员才能充分发挥AI技术的作用。
缺乏判断力易被淘汰
在作者研究的过程中,实验室通过调整雇佣和管理来应对研究过程的变化。该公司对其研究团队进行了重组,解雇了约3%的研究人员,并在此基础上通过增加招聘进一步扩大了团队规模。
在实验结束后,实验室重新设计了其招聘和解聘标准,优先考虑具备较强判断力的科学家。
按判断力四分位数划分的解雇或重新分配的概率
实验室的这种调整体现了勒沙特利原理(LeChatelier Principle),即随着时间推移,实验室能够对工具产生更强烈的反应,因为它可以重新优化更多的投入。
作者也指出,由于实验室的这种组织调整,AI的长期影响可能会被当前的估计低估。这意味着,如果实验室在招聘和人员配置上逐步适应AI辅助的工作模式,AI的影响可能在未来会更加显著,从而进一步提升研究效率和发现率。
AI提升了效率,却剥夺了研究乐趣
AI对科学家工作满意度的影响可能有不同的表现。一方面,它可能通过提升能力和增加科学发现的速度来提高士气;另一方面,它也可能使工作变得不那么令人愉快,因为重点转移到了不那么有趣的任务上。
为调查这些因素的相对重要性,作者收集了工作满意度在三个方面的变化:生产力变化带来的影响、任务重新分配带来的影响,以及总体影响。
在下图中,结果以-10到10的尺度显示,并按最初生产力的四分位数进行分组。结果显示出两种相反的趋势:任务变化带来的负面影响,以及生产力提升带来的大多是正面影响。
任务重新分配的影响在各个四分位数中始终为负,从-4.1到-4.8不等。尽管生产力提升带来的乐趣部分抵消了这一负面影响,特别是在高能力科学家中。但总体而言,82%的研究人员的满意度有所下降。
在下图中,作者列出了科学家不喜欢任务变化的主要原因。最常见的抱怨是技能未被充分利用(73%),其次是任务变得缺乏创造性且更为重复(53%)。此外,有21%的科学家担心成果归属问题,19%则对AI工具的复杂性感到不满。
这些数据反映了快速技术进步带来的适应难度。正如一位科学家所言:「虽然我对AI工具的表现印象深刻……但我不禁觉得自己多年的教育变得毫无用处。这不是我所受的训练。」
这些结果对AI主要会自动化枯燥任务、让人类专注于更有价值活动的观点提出了质疑。相反,该工具自动化的正是科学家们最感兴趣的任务——为新材料创造想法。
这反映了AI与以往技术的根本差异。过去的技术创新主要在处理例行、可编程的任务方面表现出色,而深度学习模型则通过识别训练数据中的模式来生成新颖的输出。
科学家们的反馈还表明,组织实践会影响AI带来的福利效应。科学家不仅关心自身的生产力,还在意相对于同事的表现。因此,尽管研究产出有所增加,但处于生产力底部四分位的科学家对自己的工作满意度却有所下降,这与公司的晋升实践相一致,因为晋升决策基于相对绩效。
下图展示了科学家们对五个AI相关陈述的认同水平在AI引入前后的变化。
可见,他们越来越相信AI会提高所在领域的生产力。对于AI取代岗位的担忧则基本保持稳定,这可能反映了人类判断力的持续需求。
此外,科学家们更加认为AI将改变他们工作中取得成功所需的技能,因此,计划重新学习新技能的研究人员数量显著增加。
最后,科学家们对自己所选领域的满意度有所下降,这与前面发现的工作满意度下降一致。
作者简介
Aidan Toner-Rodgers是麻省理工学院经济学二年级博士生。之前,他从麦卡利斯特学院毕业后曾在纽约联储工作过。
他的研究主要集中在科学与创新的经济学,运用产业组织、博弈论和劳动经济学的工具。