四百年前,伽利略将望远镜指向木星,仪器首次成为感官的延伸。此后几个世纪,从感光底片到 CCD,从射电阵列到引力波干涉仪,我们不断拓展观测的物理边界。然而近十年,天文学遭遇了前所未有的“认知带宽危机”。
对于当代的博士生来说,最恐怖的故事可能不是延毕,而是即将投入运行的薇拉·鲁宾天文台 (LSST):它每晚不仅产出约 20 TB 的原始图像,更会生成超过 1000 万个瞬变源警报。面对如此量级的洪流,传统“人工筛选 + 硬编码脚本”的模式已彻底失效:时域天文学家即便不眠不休,也无法从数万条光变曲线中捕捉那一瞬即逝的超新星爆发;而 ArXiv 上每日更新的近百篇前沿论文,更加剧了知识整合的滞后性。
正如 AstroLLaMA 团队所指出的,瓶颈已不在于计算硬件的算力,而在于高维数据与人类线性思维之间的维度鸿沟 [1]。正是在此背景下,人工智能不再仅是辅助计算的工具,而是晋升为“认知伙伴”。
一、模型的分岔:广度覆盖与深度穿透的技术逻辑
通用模型的局限性:自信的“本科生”
在当前天文学研究中,研究者最先接触、也最容易获得的,是以通用大语言模型为代表的通用型 AI 系统。它们未经天文学专门训练,主要依赖跨领域文本中统计共现关系进行推断,能理解大部分常见的天文术语。虽然如此,通用型大语言模型会在专业场景中暴露核心缺陷:面对“DESI光谱天光污染处理”,GPT-4可能给出“多项式拟合扣除”的通用方案,却忽视关键前提——天光强度随视宁度与月相动态变化[2],固定拟合阶数会误删真实星系信号。这表明通用模型缺乏对领域物理约束的内化能力,仅停留在语义拼接层面。更严重的是,当处理需要同时考虑仪器响应、大气透射和源物理特性的问题(如消光改正或流量定标)时,通用模型往往将不同尺度的物理过程混为一谈,导致生成的方案在数学上自洽却在物理上不可行。这种“知识”与“实践”的脱节,使其难以成为可靠的科研伙伴。
领域适配模型的架构升级
领域适配模型的架构与分布重塑(如 AstroLLaMA/AstroSage)[3]通过持续预训练重构预测模式:在通用模型基础上,领域模型可以按照“综述→仪器→前沿”的课程式路径,用 30 万篇论文摘要(约 3 亿词)进行续训,并将学习率降至预训练阶段的 1/10。这样的训练重新塑造了模型的概率分布:当输入“红移”时,模型不再给出泛化词汇,而是更倾向于“畸变”“演化”“选择函数”等专业术语,从而实现由简单语义拼接向物理上下文一致性的转变。训练过程中,模型不仅记忆术语,更内化了“红移畸变关联宇宙大尺度结构”、“演化需区分恒星与星系尺度”、“选择函数必须匹配观测极限星等”等深层约束。
AstroSage[4,9]系列(8B/70B参数)在AstroMLab-1基准(4425道多选题)中分别达到80.9%与86%准确率,印证了这一转变(见图1)。细分数据显示:恒星结构问题上特化模型显著领先,因其将公式与物理机制(如Kramers定律与H⁻不透明度)精准绑定,能自动限定适用范围与尺度量级;跨学科宇宙学问题上通用模型略优,得益于更广的知识连接。这揭示了两者的自然分工:领域适配模型如晶体,边界清晰、精度高;通用模型如溶剂,渗透性强、擅长耦合。
图1:各模型在天文学基准上的“准确率–成本”对比:横轴为每 10 万 tokens 成本(美元),纵轴为准确率(%);星标为基于Llama-3微调的 AstroSage模型(8B/70B),显示领域特化带来的提升 图源 AstroSage论文。
通用与领域模型的分工协作体系
通用模型与领域特化模型需要与研究者一道构建闭环式工作流,以确保从知识耦合到物理约束均能被完整覆盖。如果研究者想要“利用矮星系潮汐尾进行黑洞搜寻”,那么可以按照以下研究范式进行:通用模型快速构建任务网络(跨数据库检索SDSS/Legacy/GALEX数据、计算潮汐半径与质量-光度比、比对引力波事件宿主特征、生成多波段观测策略),产出可复现的脚本骨架;领域模型则负责技术文档的精细化(在ApJ写作规范下生成方法部分、逐条校核潮汐半径公式的符号体系与单位、枚举低表面亮度尾迹误报与前景恒星干扰等失败模式);研究者最终判断问题科学价值、评估证据可信度并决定资源投入。此流程将人从机械劳动解放至科学判断层,实现高效协同,使研究者能将精力聚焦于“问题是否值得做、证据是否可信”的本质思考。
二、RAG:对抗时间腐蚀的实时化工程
如果说预训练模型是一本印刷精良但内容固化的百科全书,那么检索增强生成(Retrieval Augmented Generation, RAG)[8]就是它的实时外部知识通道:模型在作答前先从外部文献库检索到与问题最相关的段落,再据此生成,从根本上缓解“过时”与“幻觉”(如图2)。天文领域更新极快,新观测、新分类、新数据处理管线层出不穷,仅靠模型参数里冻结的旧知识很快失效。仅使用纯稠密向量相似度的 RAG(如把文档嵌入存入向量索引做近似最近邻检索;常见实现为 FAISS,由 Meta/FAIR 开源)擅长“找语义相似文本”,但不天然支持“观测时间>2022、红移>10、仪器=NIRSpec”这类结构化硬条件;工程上更稳妥的做法是混合检索:先用 BM25/布尔过滤按字段与时间窗收缩候选集,再做向量召回与交叉编码器段落级重排与核验。以“JWST 的 NIRSpec 对 z>10 星系金属丰度的测量”为例,这种流程才能同时满足“语义相关”与“硬约束可控”。
为此,天文领域在通用 RAG 框架之上,逐步形成了一种常见的工程化实现方式,可概括为“三层漏斗”式检索流程, 这一设计并未改变 RAG 的整体生成范式,而是对其中“检索模块”的内部流程进行分层拆解:具体而言,第一层采用 BM25 或布尔规则对关键词、时间窗与仪器元数据进行快速过滤,将候选文献规模从约 1500 万篇压缩至千篇量级,类似图书管理员按书号进行初筛;第二层使用向量编码对摘要进行语义召回(top-20),确保内容相关性;最后一层引入跨编码器(cross-encoder)进行段落级重排与核验,将检索精度从“文章相关”提升至“论断支持”级别。这套系统在 CosmoPaperQA 评测中使 GPT-4 正确率从 18% 跃升至 91.4%。
图2:利用 LLM(大语言模型)和向量数据库的检索增强生成(RAG)流程,旨在提升回应用户查询时的准确性与上下文相关性。图源 learnmycourse.medium.com
知识图谱(Knowledge Graph,KG)[9]则构建了可导航的物理地图。它将文献转化为“天体—仪器—结果”的语义网络。以“星系团金属丰度演化”为例,系统存储的不仅是文本,更是实体关系路径:星系团 → XMM-Newton 观测 → 2023 年 ApJ 论文 → 演化曲线数据。当模型生成回答时,KG 强制执行逻辑路径验证:任何演化论断必须存在从“高红移星系团”到“现代观测”的完整证据链,否则标记为“知识断层”。更关键的是,它阻止了知识过时——RAG 检索被限制在 KG 验证过的子图中,自动屏蔽已被淘汰的方法(如 Chandra 早期背景扣除算法 ACISABS,现行 CIAO 线程推荐 blank-sky 方案),避免 AI“复古式”引用。
最终,这套系统进化为全自动化知识刷新引擎:每周监听 arXiv 的 2,000 篇新预印本,用影响力预测模型筛选高价值论文,增量更新 FAISS 索引,再由 KG 自动抽取并链接新实体(如将“JWST NIRCam”链接至“近红外成像”),形成闭环。若论文被撤回,系统立即回退相关索引。如此,大模型的知识半衰期可以从一两年快速缩短为一两周,认知流水线拥有了对抗时间腐蚀的免疫系统。研究者提问时,答案不再是静态快照,而是与文献同步演化的活体知识。
三、多模态智能:当知识需要跨越感官形态
知识增强技术虽能编织精密的学术记忆网络,却始终困于符号的疆域——当文献描述“引力透镜弧的爱因斯坦半径3.2角秒”时,它无法自动将这一抽象几何映射到 DESI 图像中那圈黯淡的像素环。这种文本智慧与观测信号之间的裂隙,是 RAG 无法触及的盲区。要真正“理解”一个天体,AI 必须跨越感官形态,在统一空间中建立“几何描述”与“像素现实”的物理对应。
正是在这一背景下,跨模态对比学习被引入天文学研究。以 AstroCLIP、SpecCLIP [5,6]及其后续工作为代表的方法,不再将图像与光谱视为彼此独立的输入模态,而是通过双编码器结构将多波段成像与光谱数据共同映射至统一的潜空间,使几何邻近性直接反映天体物理相似性(见图3)。这种表示方式显著降低了跨模态相似性检索、光度红移估计与形态分类等任务的复杂度,也为“从观测到物理”的端到端推理提供了可能。
使这一潜空间具备物理意义的关键,并非对比学习框架本身,而是输入层面嵌入的领域约束。在成像端,这类模型摒弃计算机视觉中惯用的 RGB 三通道表示,直接采用天文观测体系下的多波段 FITS 数据(如 u,g,r,i,z),并在 AB 星等系统中进行统一校准,从而避免伪彩色合成引入的非物理相关性,使模型关注的特征对应真实的天体物理属性而非图像处理痕迹。在光谱端,模型未简单沿用观测波长作为输入,而是将光谱重采样至静止系框架(),在输入阶段即消除红移带来的尺度缩放效应。这一处理强制所有光谱在统一的物理尺度上对齐,使对比学习能够聚焦于 4,000 Å 断裂等真实谱线特征,而非由多普勒频移引入的伪相关。通过为天文数据的不平衡问题调优参数后,模型可以在潜空间中稳定地把同一天体的多模态观测对齐为一致的物理表示,从而弥合文本描述与实际观测之间的差距。
出乎意料的是,这种对齐让潜空间展现出了惊人的物理可解释性。研究发现,模型生成的嵌入向量主成分与绝对星等、星族年龄、恒星形成率等关键参数的相关系数极高(部分达 0.94)。这意味着,基于 Transformer 的神经网络在没有任何监督信号的情况下,在自监督训练中自发“复现”了恒星演化方程的统计结构——虽然没有显式的公式,但光度、颜色与年龄在潜空间中形成了一个高度有序的线性流形。在实践层面,这彻底改变了传统光度红移的特征工程:研究者无需手动提取特征,直接将嵌入向量输入轻量级 MLP,即可实现极高精度的红移预测。
图3:AstroCLIP 、SpecCLIp等跨模态对比学习的核心思想:将图像与光谱嵌入映射到统一潜空间,以几何邻近性表达物理相似性,该示意图刻意省略了具体的天文预处理与物理约束。
更深层的启示来自 Duraphe 等人提出的“柏拉图式表征假说” 。通过对比语言、视觉、光谱三类独立模型的训练轨迹,研究者发现了一个令人振奋的现象:当训练数据的规模与多样性跨越临界点时,不同模态模型的内部表征倾向于收敛。这表明,只要观测数据覆盖了足够广阔的参数空间,物理现实本身的因果结构终将迫使异构的神经网络收敛到同一真理。这对天文学家的实用价值在于终结了模型架构的内卷:数据质量与物理覆盖度,才是决定 AI 认知上限的最终仲裁者。
四、科研 Agent:当认知流水线长出“手脚”
如果说大模型是科研大脑的“认知模块”,科研 Agent则是将其接入真实世界的“神经 - 运动接口”。它不仅能理解科学意图,更能自主调用 API、执行代码、监控实验,将知识转化为可重复的行动(见图4)。这种从“思考者”到“操作者”的跃迁,正重塑着“可重复性科学”的自动化边界——其演进不是功能的简单堆砌,而是科研权重从人类向 AI 逐步转移的连续光谱。
图4:AI agent 简化结构示意图 图源: medium.com
L1:科学意图的编译器
Agent 的最初动因源于一个看似细微却长期存在的摩擦:研究者能够用自然语言讨论极其复杂的观测需求,却不得不将其手工翻译成冗长而脆弱的 XML 脚本提交至望远镜控制系统。以 ALMA 为例[16],其 Observing Tool / Observation Support Tool 已体现出一种领域特定的语义编译器雏形。当用户提出“观测 Sgr A* 吸积流”这样的科学目标时,系统会将意图解析为结构化的约束链:目标灵敏度 → 对应带宽与速度分辨率 → 推导积分时间 → 限定可接受的 PWV 区间,最终生成符合观测平台规范的 Scheduling Block。原本依赖专家经验的隐性知识被显性化为可检查、可复用的逻辑约束,使科研意图与执行脚本之间的翻译过程从手工规则迁移为可编译规范,人类角色也从脚本作者转变为约束与语义的审查者。这样一个语义编译层,为更高层的自动规划与自适应 agent 能力奠定了必要的形式化基础。
L2:可扩展性的基石
当指令生成被自动化之后,新的瓶颈不再是“能不能下指令”,而是“系统能否在无人值守时持续做出可靠决策”。StarWhisper Telescope 系统[14]给出了一个现实范例:在 NGSS 多望远镜巡天中,它以 LLM-based agents 管理从目标列表生成、望远镜控制到图像分析和实时反馈的整条链路,自动草拟跟进观测方案并推送给观测团队,人类只在关键节点进行确认与修正,从而把人工负担从逐条操作转移到少量高价值决策上。类似地,基于 MACHINA 框架的自主 agent [17]也开始用于全球望远镜网络的调度与编排,通过事件驱动的服务流水线来托管大规模观测任务。这些系统的共同设计原则是:在系统级别刻意维持高的召回率,由 agent 扫描和排序海量候选,再把极少数高优先级事件交给人类复核,并将反馈回流以持续校准策略,为更强自治的上层 Agent 提供安全的运行地基。
L3:物理约束下的实时探索
当 AI 开始承担实时决策,风险与机遇同步放大。比如在天文观测中使用强化学习调度系统不再依赖预设脚本,而是通过奖励函数在信噪比与巡天效率之间寻找平衡。比如在一次针对 GRB(伽马射线暴)的观测中,Agent 可以敏锐地计算出微弱信号中隐含的科学价值,果断推翻常规策略,将总积分时间从标准的 20 分钟强行延长至 45 分钟[11]。这一“冒险”最终成功捕获了人类可能因保守止损而错失的关键晚期余辉。L3 的意义在于,它让人工智能从“执行者”进化为“探索者”。其设计哲学是对未来的深刻洞见:AI 不应模仿人类的谨慎,而应在物理法则允许的极限边缘,计算最优风险。
L4:元认知鸿沟——AI 能否拥有科学怀疑?
当前 Agent 的终极瓶颈,不在算力而在元认知缺陷。AI Cosmologist[7]提出面向宇宙学的多代理自动化科研系统框架,集成规划、代码执行与分析等模块,实现从设想到实验评估的自动化流程。它能自动扫描 200 个引力理论参数、运行 N 体模拟、拟合观测数据,却无法提出:“若结果不符,是理论失效、数值误差还是观测系统偏差?”因为它缺乏“怀疑数据”与“质疑前提”的能力——这正是人类科学家最强大的认知武器。突破方向指向神经符号混合架构:在深度学习之上构建符号化的因果推理层,使 Agent 能自动推演不同误差模型的贝叶斯证据,甚至对模拟结果执行保真度检验[10]。L4 级的成熟,不取决于架构复杂度的堆砌,而依赖于将物理定律的可符号化逻辑与神经网络的不可符号化直觉相结合。这标志着 AI 天文学的最后一跃:从“可重复执行”到“可怀疑反思”,从“操作者”到“思想者”。
五、基准化:AI 成为科学仪器的“社会契约”
超越分数:基准作为可信度基础设施
在人工智能研究中,所谓“基准”(benchmark),通常指一组标准可量化的任务与评测问题集,用于在可控条件下描述不同模型的行为与误差特征,对比它们的优劣。在天文学研究中,MMLU 等通用自然语言处理基准往往难以发挥实效。语言理解中的误差或许可容忍,但任何一丝丝的红移偏差,就可能足以彻底推翻相关的宇宙学理论。天文专属基准的核心使命,是将模型性能转化为可操作的选型指南:明确告知研究者“此模型适用于何种任务、在何种边界下失效”,而非提供抽象分数。
AstroMMBench[12]、AstroVisBench[13] 与 AstroMLab [7]三大天文专属基准各有侧重,从不同维度为天文学 AI 应用提供关键支撑。AstroMMBench 的目标并非回答“哪一个模型更强”,而是通过统一的评测任务暴露模型在关键天文问题上的系统性误差。以高红移距离估计为例,该基准可以刻画不同模型误差随红移区间演化的规律,从而为研究者提供明确的使用边界:哪些模型的输出可作为候选体筛选的辅助信号,哪些则不具备支撑精确宇宙学结论的可信度。相比之下,AstroVisBench 关注的是研究流程的可重复性问题。它不满足于验证 AI 生成代码是否能够成功运行,而是进一步自动检查其物理正确性,例如识别消光系数误用、单位不一致等在人类审阅中极易被忽略的隐蔽错误。AstroMLab 则将关注点放在知识时效性上,其长期评测结果表明,大模型对天文学核心概念的理解会随文献体系的演化而逐渐偏移,从而提示研究者必须定期更新外部知识库,才能维持结论的长期可靠性。
图5:AstroMMBench 的问题样例.,来自国家天文台黄样团队的工作。图源自论文[12]
三者共同构建了 AI 科学可信度的三支柱:能力边界、结果可复现、知识保鲜。它们推动 AI 模型从商业产品转向可被同行独立验证的科研工具,标志着天文学界正在建立数据洪流时代的新型质量管控体系——其可信度不源于厂商声明,而根植于社区共建的透明评估标准。
六、未来:迈向人机协同的科研新范式
上述技术演化指向一个清晰趋势:AI 天文学正从“工具辅助”走向“系统融合”。这种融合体现为三个层面的深化:
其一,知识增强的隐形化。RAG 将不再作为独立插件存在,而是内化为模型的默认能力。当研究者提出问题时,系统静默地从全球数据库拉取最新文献、仪器状态与观测日志,生成带时间戳的知识快照。知识的“新鲜度”将成为模型性能的核心指标,而非可选项。
其二,多模态特征的基建化。AstroCLIP 类模型将从研究项目升格为天文台的标准数据产品。如同当下下载 SDSS 数据会自动获得测光与光谱文件,未来也将同步获取每个天体的跨模态嵌入向量。这将终结重复的特征工程,使多波段数据的统一表征成为观测基础设施的一部分。
其三,Agent 决策的模块化。L2–L3 级 Agent 将拆解为可组合的功能模块(数据清洗、观测调度、实时分类),研究者可根据课题需求灵活组装,而非依赖单一通用系统。这种可配置自治将降低技术门槛,使中小型望远镜也能部署 AI 观测能力。
在此过程中,天文学家的角色将发生实质转变:他们不再是数据流水线中的操作员,而是认知架构的设计者——负责选择模型模块、设定物理约束、解读 AI 发现的异常。当人均数据处理量从 GB 级跃升至 TB 级,假设验证周期从月级压缩至天级,人类的核心价值将回归到提出深刻问题与赋予物理意义上。这或许正是 AI 时代天文学的本真:技术处理数据,人类追问宇宙。
作者简介
主编:陆由俊
审核:田斌