1.2024年人工智能十大进展涵盖了临床诊断、数学证明、病毒发现、药物研发等领域。
2.其中,眼科诊断中AI首次达到专家级水平,天气预报领域则实现了颠覆性的传统预测模型极限。
3.然而,这些进展也揭示出一系列深层次的矛盾,如模型越大,可靠性反而下降;声称开放的系统,实则形成新的技术垄断。
4.为此,人工智能的进步应以取代人类为目标,而是要探索如何与人类智慧实现最优互补。
以上内容由腾讯混元大模型生成,仅供参考
整理:存源、一木、雨飞
排版:张心雨桐
图源:zaoeyo
“机器终将超越人类吗?”这个问题在2024年愈发引人深思。就在我们惊叹于人类大脑的精妙机制时,人工智能正以惊人的速度拓展着可能性的边界。从临床诊断到数学证明,从病毒发现到药物研发,AI正在重新定义人类智慧的疆域。
在过去的一年里,我们见证了数项改变游戏规则的AI突破:眼科诊断中,AI首次达到专家级水平;在奥林匹克几何难题面前,AlphaGeometry无需人类示范便能给出优雅证明;而在天气预报领域,GenCast更是颠覆了传统预测模型的极限。这些成就不禁让我们追问:AI的能力边界究竟在哪里?它是否已经开始真正理解而不仅仅是模仿?
然而,这些进展也揭示出一系列深层次的矛盾:模型越大,可靠性反而下降;声称开放的系统,实则形成新的技术垄断;在医疗等关键领域,尽管AI展现出超越人类的潜力,却仍难以完全取代人类的直觉判断。这种矛盾性恰恰印证了一个事实:AI的进步不应以取代人类为目标,而是要探索如何与人类智慧实现最优互补。
在这个人机协同加速演进的时代,让我们跳出非此即彼的思维定式,重新思考:技术进步的真正意义是什么?如何在突破创新与伦理安全之间找到平衡?
带着这些问题,让我们一起走进2024年人工智能研究十大进展,探索这些正在重塑人类未来的重大发现。
连接组约束网络
预测果蝇视觉系统的神经活动
▷相关论文:Lappalainen, J.K., Tschopp, F.D., Prakhya, S. et al. Connectome-constrained networks predict neural activity across the fly visual system. Nature. 2024;634(1):89-97. doi:10.1038/s41586-024-07939-3
神经科学领域长期面临一个关键挑战:通过已知神经元的连接图谱(连接组)来揭示神经计算的功能机制。Lappalainen等人希望通过构建受限于神经连接组的网络模型,回答这样一个问题:神经连接组数据是否足以预测神经系统的动态活动?
哈佛大学与剑桥大学联合团队在《自然》(Nature)的研究中,通过果蝇视觉运动通路给出肯定答案。研究基于果蝇视叶64种细胞类型的完整连接组数据,构建了仅包含突触连接信息、不依赖神经元动态参数的模型。利用深度学习优化未知参数(如突触强度与神经元激活阈值),该模型成功预测了果蝇检测视觉运动时的神经活动模式,并与26项独立实验的观测结果高度一致。研究进一步发现,神经网络的稀疏连接特性(跨物种普遍存在)是预测成功的关键——稀疏性降低了参数优化的复杂度,使模型无需活体测量即可推断动态机制。
▷巩固模型与Go-CLS模型下学生泛化性能随教师的可预测性程度变化的比较。左:系统巩固的神经网络模型,右:Go-CLS模型。
学术影响:
>>理论突破:
首次验证连接组数据足以预测动态神经活动,挑战“动态参数不可或缺”的传统认知;
>>技术革新:
深度学习与连接组学的结合,为复杂神经系统建模提供通用工具;
>>跨物种启示:
稀疏连接的普遍性提示该策略可扩展至哺乳动物甚至人类脑研究;
>>实验范式:
提出“连接组约束建模”新方法,加速神经环路功能机制的假说生成。
设计易合成且结构新颖的抗生素:
生成式AI如何发挥作用
▷相关论文:Swanson, K., Liu, G., Catacutan, D. B., Arnold, A., Zou, J., & Stokes, J. M. (2024). Generative AI for designing and validating easily synthesizable and structurally novel antibiotics. Nature Machine Intelligence, 6(3), 338-353.
面对日益激化的多重耐药菌的威胁,亟需结构新颖且易于合成的抗生素,但传统药物发现受限于化学空间探索效率与合成成本。药物的研发总是困难重重,如今,在生成式AI的帮助下,能否破解抗生素研发的可合成性难题?
斯坦福大学与麦克马斯特大学团队在《自然·机器智能》(Nature Machine Intelligence)的研究中,开发了生成式AI模型SyntheMol,从近300亿分子库中直接设计可合成的新候选分子。针对耐药性极强的鲍曼不动杆菌,团队合成了58个AI生成分子,其中6个展现出广谱抗菌活性(覆盖肺炎克雷伯菌等病原体),且2个通过小鼠毒性测试。SyntheMol通过约束生成逻辑(如合成步骤≤5步、规避稀有试剂),将设计成功率提升至10%(传统方法通常<1%),首次实现“新颖性-可合成性-有效性”的同步优化。生成式AI能否破解抗生素研发的可合成性难题?
▷图源:Science Photo Library
学术影响:
>>技术范式革新:
生成式AI跳过“预测-筛选”传统流程,直接输出可合成分子,缩短研发周期;
>>抗耐药性突破:
新分子靶向鲍曼不动杆菌等“超级细菌”,填补现有抗生素结构空白;
>>成本革命:
简化合成路径,降低生产成本,助力中低收入国家药物可及性;
>>开源协作潜力:
模型与数据开源,加速全球抗感染药物开发。
LLM的规模扩展和指令优化降低其可靠性
▷相关论文:Zhou L, Schellaert W, Martínez-Plumed F, et al. Larger and more instructable language models become less reliable. Nature. 2024;634(1):61-68. doi:10.1038/s41586-024-07930-y
人工智能领域长期默认“更大更智能”的模型开发范式,然而如今我们需要回答这样一个问题:模型规模扩展与指令优化是否可以以牺牲可靠性为代价?
西班牙瓦伦西亚理工大学团队在《自然》(Nature)的研究中,通过分析GPT、LLaMA、BLOOM等主流模型家族,揭示了规模扩展与指令优化的隐性代价。研究发现,随着模型参数量与训练数据的增长,其简单任务错误率不降反升——例如,GPT-4在基础算术题的错误率超60%,且更倾向于生成看似合理但错误的答案,而非早期模型的“回避回答”策略。这种“脑雾”现象(间歇性认知障碍)在低难度任务中尤为显著:优化后的模型虽能覆盖更广的问题范围,但错误分布不可预测,用户难以通过任务难度预判其可靠性。研究进一步指出,模型对同一问题的不同表述仍存在稳定性波动,提示当前优化策略未能解决根本性缺陷。
▷图源:REUTERS
学术影响:
>>技术范式颠覆:
挑战“扩展即进步”的行业共识,揭示规模扩大可能引发能力-可靠性割裂;
>>用户信任危机:
错误答案的“合理伪装性”导致人类监督失效,加剧高风险领域(如医疗、司法)的误用风险;
>>伦理治理需求:
需建立模型透明度标准与动态置信度机制,平衡性能增益与可控性。
利用人工智能记录隐藏的RNA病毒
▷相关论文:Hou X, He Y, Fang P, et al. Using Artificial Intelligence to Document the Hidden RNA Virosphere. Cell. 2024;187(1):1-14. doi:10.1016/j.cell.2024.09.027
传统病毒学方法因依赖已知序列的同源性比对,长期难以捕捉高度分化的RNA病毒“暗物质”。那么,使用新工具,AI能否揭示RNA病毒圈的“暗物质”?
中山大学与阿里云团队在《细胞》(Cell)的研究中,开发了深度学习模型LucaProt,通过融合序列与预测的蛋白质结构特征,从全球万余份环境样本中挖掘出16万余种新RNA病毒,包括23个全新病毒超群。这些病毒分布于极端环境(如深海热泉),且部分基因组长度远超已知上限,彻底颠覆了RNA病毒的生态适应性认知。研究通过跨学科协作(生物学验证与AI模型优化),证实AI可突破传统方法的盲区,为病毒分类学与疫情预警提供全新工具。
▷图源:nature
学术影响:
>>技术范式革新:
AI驱动的病毒发现使已知RNA病毒多样性扩容近30倍,重构病毒分类体系;
>>生态理论突破:
极端环境中的病毒活跃复制挑战了传统宿主-环境互作模型;
>>公共卫生储备:
未知病毒库为潜在病原体监测与疫苗研发奠定数据基础;
>>开源协作价值:
模型与数据全球共享,推动跨领域联合探索。
“Open” AI为何仍是封闭的
▷相关论文:Gray Widder D, Whittaker M, West SM. Why ‘Open’ AI Systems Are Actually Closed, and Why This Matters. Nature. 2024;626(1):107-113. doi:10.1038/s41586-024-08141-1
人工智能领域标榜的“开放”承诺常被视为技术民主化的基石,但其实际实践却与理想背道而驰。比如OpenAI,人工智能领域的先行者,名为“Open”,却为何难以打破技术的垄断和封闭?
《自然》(Nature)的最新研究中,来自康奈尔大学、麻省理工学院等机构的团队通过系统性分析Meta的LLaMA、Mistral AI的Mixtral等模型,揭示了“开放”AI系统的三重封闭性:技术封闭(训练数据与代码不透明)、生态封闭(依赖巨头云计算平台)、权力封闭(市场准入壁垒固化)。研究发现,即使部分公开模型权重,企业仍通过限制性协议(如禁止军事用途)与基础设施垄断(如Azure集成)维持控制权。这种“开放洗白”(openwashing)现象导致外部审查与创新严重受限,而所谓的“开源”反而成为大公司吸纳社区贡献、巩固垄断地位的工具。
▷图源:Getty Images
学术影响:
>>技术边界界定:
重新定义“开放”标准,强调透明度需覆盖数据、算法与计算资源全链条,而非仅模型权重;
>>治理模式革新:
呼吁政策强制公开训练数据元信息(如来源、筛选标准),并限制云计算平台的市场垄断;
>>生态重构路径:
支持去中心化公共算力(如欧盟超级计算机)与开源协议升级,打破商业闭环依赖;
>>安全与创新平衡:
构建开放模型的动态监管框架,防范滥用风险的同时释放社区创新潜力
机器独立解决奥数难题
▷相关论文:Trinh, T. H., Luong, T. D. et al. Solving olympiad geometry without human demonstrations. Nature 626, 107–113 (2024). doi:10.1038/s41586-023-06747-5
数学定理的自动化证明长期受限于两大瓶颈:一是人类证明向机器可验证形式的转换成本极高,二是几何领域因图示依赖性与逻辑非结构性导致训练数据极度匮乏。人工智能如何突破复杂几何问题自动化证明中数据稀缺与符号推理局限的双重壁垒?
DeepMind团队在《自然》(Nature)发表的研究中,提出了AlphaGeometry系统——一种神经符号融合架构,首次实现了无需人类示范的奥林匹克级几何解题。该系统利用符号演绎引擎生成1亿个合成定理及其证明,构建自监督训练数据集,并训练神经语言模型预测辅助构造的添加策略,引导符号引擎跨越无限分支点。在30道最新奥林匹克几何题测试中,AlphaGeometry解决25题(此前最佳系统仅解10题),接近国际数学奥林匹克(IMO)金牌选手平均水平,且输出人类可读证明。
▷图源:MLWIRES
学术影响:
>>理论突破:
首次验证神经-符号协同在形式数学中的有效性,为解决高难度STEM问题提供新范式;
>>技术革新:
合成数据生成框架突破领域数据瓶颈,可扩展至拓扑学、组合数学等分支;
>>教育潜力:
为数学竞赛训练与个性化学习提供智能辅助工具,推动“AI-人类协作证明”模式;
>>基础科学:
揭示几何推理中直觉启发与严格演绎的互补性,促进认知科学与AI的交叉研究。
随机临床试验:LLM对诊断推理的影响
▷相关论文:Goh E, Gallo R, Hom J, et al. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Netw Open. 2024;7(10):e2440969. doi:10.1001/jamanetworkopen.2024.40969
大语言模型正不可避免地在医疗领域发挥越来越大的作用。因此也产生了一个问题:在临床诊断中,LLM应被定位为独立决策者还是人类医生的协同助手?
斯坦福大学、哈佛医学院等多机构团队在《JAMA 网络开放》(JAMA Network Open)发表的随机单盲临床试验中,通过严格设计的对照实验揭示了两者的割裂性矛盾。研究发现,尽管LLM独立诊断能力显著优于传统资源(评分提升16%),但其作为医生的辅助工具却未显著提升诊断准确性或效率。这一结果表明,LLM的“独立智能”与“人机协同价值”存在本质差异,当前技术未能有效弥合医生认知过程与AI推理逻辑的鸿沟。研究进一步指出,LLM在复杂病例中的逻辑错误可能抵消其理论优势,而医生对AI建议的信任阈值与认知负荷成为协同效能的关键限制因素。
▷图源:lifespan.io
学术影响:
>>理论革新:
挑战“AI辅助必然提升临床决策”的默认假设,提出“人机协同效能鸿沟”概念;
>>技术路径:
呼吁开发“认知对齐”型LLM架构,优先增强模型的可解释性与医生工作流适配性;
>>临床实践:
明确LLM当前适用于低风险病例的初步筛查,但高不确定性场景仍需人类主导;
>>政策警示:
需建立AI辅助诊断的透明性标准与责任划分框架,防范过度依赖风险。
LLM对神经科学的预测能力超越人类专家
▷相关论文:Luo X, Rechardt A, Sun G, et al. Large language models surpass human experts in predicting neuroscience results. Nat Hum Behav . 2024;8(11):1435-1444. doi:10.1038/s41562-024-02046-9.
神经科学研究的复杂性与文献数量的激增对人类专家的信息处理能力提出了巨大挑战。而有了大语言模型的帮助,我们是否能更准确地预测神经科学实验的结果?
近日,由Luo Xiaoliang博士领导的研究团队在《自然·人类行为》(Nature Human Behaviour)杂志上发表了一项开创性研究,展示了大语言模型(LLM)在预测神经科学实验结果方面的巨大潜力。该研究开发了一个名为BrainBench的前瞻性基准测试工具,并基于Transformer架构的LLM(如Llama2、Galactica、Falcon、Mistral)创建了专门的神经科学模型BrainGPT。研究团队通过LoRA(低秩适应技术)对LLM进行微调,显著提升了其在神经科学领域的表现。结果显示,LLM在预测任务中的平均准确率达到81.4%,远高于人类专家的63.4%。
该研究得到了天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)的支持,为这一领域的研究提供了重要的资源和平台。这一发现不仅为神经科学研究提供了新的工具,也为人工智能与科学研究的深度融合开辟了新的道路。
▷图源:Getty Images
学术影响:
>>研究范式转变:
LLM在预测神经科学实验结果方面的能力表明,未来科学研究可能更多地依赖于人工智能与人类专家的协作,从而加速科学发现的进程。
>>工具开发与应用:
BrainBench的开发为评估LLM在科学研究中的表现提供了标准化工具,而BrainGPT的出现则为神经科学研究提供了强大的预测模型,未来可应用于实验设计和数据分析。
>>信息整合与创新:
LLM通过整合文献中的背景、方法和结论信息进行预测,表明其能够发现隐藏在大量文献中的模式,为科学研究提供新的视角和思路。
>>人类专家的角色:
尽管LLM在预测方面表现出色,但研究者强调人类专家在科学解释和理论构建方面仍不可替代。未来需要结合人类的洞见与LLM的能力,共同推动科研进展。
基于机器学习的概率天气预报
▷相关论文:Price I, Sanchez-Gonzalez A, Alet F, et al. Probabilistic weather forecasting with machine learning. Nature . 2024;526(7573):415-422. doi:10.1038/s41586-024-08252-9.
准确的天气预报对公共安全、能源规划和经济决策至关重要,但传统数值天气预报(NWP)在处理不确定性时存在局限性。机器学习(ML)能否在概率天气预报中超越传统数值天气预报(NWP),提供更准确、更高效的预测?
近日,DeepMind团队在《自然》(Nature)杂志上发表研究,介绍了一种名为GenCast的概率天气模型。GenCast基于扩散模型架构,利用ERA5再分析数据(1979—2018年)训练,能够在8分钟内生成15天的全球集合预报,分辨率为0.25°,覆盖超过80个地表和大气变量。在对1320种变量和提前时间的组合测试中,GenCast在97.2%的情况下优于欧洲中期天气预报中心(ECMWF)的集合预报系统(ENS),尤其在极端天气、热带气旋路径和风能产量预测方面表现出色。该研究为业务天气预报提供了新的方向,助力更准确、更高效地做出与天气相关的关键决策。
▷图源:ClimateAi
学术影响:
>>预报范式转变:
GenCast标志着天气预报从传统数值模拟向基于机器学习的概率预测的转变。
>>决策支持优化:
GenCast通过提供更准确的概率预报,提升应对极端天气的能力。
>>计算效率提升:
GenCast显著提高了天气预报的效率,降低了计算成本。
>>科学研究拓展:
该研究为未来气象模型的开发提供了新思路,推动气象预报技术的发展。
横向对比研究:
LLM在眼科的临床知识和推理能力接近专家级
▷相关论文:Thirunavukarasu AJ, Mahmood S, Malem A, et al. Large language models approach expert-level clinical knowledge and reasoning in ophthalmology: A head-to-head cross-sectional study. PLOS Digit Health. 2024;3(4):e0000341. Published 2024 Apr 17. doi:10.1371/journal.pdig.0000341
眼科作为高度依赖经验积累与动态决策的医学领域,长期面临全球性专家资源短缺与分布不均的挑战。大型语言模型在眼科临床知识与推理中能否达到专家水平?
新加坡国立眼科中心与新加坡国立大学团队在《科学公共图书馆·数字健康》(PLoS Digital Health)发表的横断面研究中,揭示了大型语言模型(LLM)在专科医学中的能力边界与潜在价值。研究发现,以GPT-4为代表的先进LLM已具备接近眼科专家中位水平的临床知识与推理能力,其回答的准确性与相关性显著优于其他模型及非专科医生,甚至在特定亚专科任务(如视网膜病变鉴别)中表现接近资深专家。然而,模型与人类医生的知识盲区呈现显著异质性——LLM在急症处理与个体化治疗建议中仍存在系统性短板,而医生则更易受经验偏倚影响。这一矛盾提示,LLM当前应定位为“专家能力补充者”而非“替代者”,其核心价值在于弥合资源缺口而非颠覆临床决策范式。
▷图源:Ryan Etter
学术影响:
>>技术边界界定:
确立LLM在专科医学中的“准专家级”能力上限,明确其适用于标准化知识检索与非紧急病例初筛;
>>资源分配革新:
为医疗资源匮乏地区提供低成本、高可及性的“虚拟眼科顾问”,缓解全球眼健康不平等;
>>认知科学启示:
揭示人类专家经验驱动决策与LLM概率驱动推理的本质差异,推动“人机互补”型临床路径设计;
>>验证范式迭代:
倡导“专科能力基准测试-动态临床反馈”双阶段评估体系,规避技术冒进导致的误用风险。
关于追问nextquestion
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
Chen Institute与华山医院、上海市精神卫生中心设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工天桥神经科学研究院。