划重点
01太阳耀斑是最剧烈的太阳爆发现象,预测耀斑具有重大的社会意义。
02科学家们通过研究耀斑演化的物理过程和数据驱动的预测方法,但面临模型拟合与模式发现对算法规模的要求越来越高的问题。
03以ChatGPT为代表的大语言模型在常规问题答案预测、回答等方面表现优异,为太阳耀斑预测提供了新的可能性。
04通过微调预训练大模型,科学家们实现了耀斑爆发预测和磁场预测生成等科学任务,以及太阳物理知识问答和太阳图像识别分析问答等智能体任务。
05然而,目前训练使用的数据量还比较小,数据时间跨度较短,数据模态内容也比较少,需要收集整理更多更好的数据以提高耀斑预测能力。
以上内容由腾讯混元大模型生成,仅供参考
什么是太阳耀斑?
耀斑是最剧烈的太阳爆发现象,一次典型的X级耀斑能在几十分钟时间里释放出相当于100亿颗氢弹同时爆炸所释放的能量,或者相当于上百万次强火山爆发释放的能量总和[1]。随之而来的空间天气效应有可能给地球上的高科技系统带来灾难性的冲击。所以,准确预测和预报耀斑有着极为重大的社会意义。然而,由于耀斑爆发过程极其复杂、精细观测仍难以获得,耀斑预测长期以来都是难以攻克的谜题。
图1:怀柔基地太阳Hα图像,左侧明显增亮部分就是太阳耀斑,日面较暗的部分是暗条
为了破解太阳耀斑之谜,科学家们一直在努力
1859年,Carrington和Hodgson首次观测到白光耀斑,并且发现了太阳爆发和地球高科技系统之间的可能关联(当时是电报)。1939年,Giovanelli第一次在学术刊物上发表了耀斑与黑子群的统计关系研究。之后,为了破解耀斑爆发之谜,科学家们开展了长期不懈的努力。很多科学家从耀斑演化的物理过程进行研究,如磁场位型、非势性、磁螺度、电流等,希望透过物理机理寻找爆发先兆;近年来,很多学者从数据驱动角度出发,用统计方法、机器学习 、深度学习等技术开展耀斑预报研究。然而,随着观测数据的不断积累和数据特征维度的不断增加,模型拟合与模式发现对算法规模的要求越来越高,亟需能够对海量多模态数据进行有效处理以探索太阳耀斑之谜。
什么是大模型?
大模型能预太阳测耀斑吗?
如果大模型能预测/回答文本内容中的下一个词、下一句话,那么它能不能预测太阳耀斑?我们知道,大模型本身是生成模型,其目标是根据前一个输入来预测词元,本质上并不关心你的输入是什么,也无意于回答问题,他的目标是为了看起来准确、完整。比如我们提问“小明摔断了胳膊,我们应该把他送去哪里?”,大模型并不知道你所在的环境是什么样子,但它会给出一个完备的分析建议,比如急诊、骨科急诊或者社区医院,并提醒你防范二次伤害,为什么?因为大模型在读过的大量学习资料中学到了类似的知识。那么,如果我们针对太阳耀斑现象,对观测数据给出尽可能准确的描述,而且样本量足够大,让大模型有足够多的学习样本,那么大模型就有可能按照它学习的样本规律,给出评估描述,得出数据分析、预测结果。
金乌·太阳大模型:不断逼近耀斑的准确预报
要获得具有专业能力的大模型,通常有两种方法:一是从头训练领域模型,融入领域知识;二是在预训练模型基础上通过微调或迁移学习,使其适用于特定领域。前者虽然更灵活专业,但对数据和算力要求较高;后者则能在较低资源下迅速提升专业能力。所以,我们选择了技术路线二——通过微调预训练大模型探索耀斑预测方法。我们基于Qwen2系列基础模型开发了金乌·太阳大模型,实现了两个科学任务和两个智能体任务。科学任务包括耀斑爆发预测(JW-Flare)和磁场预测生成(JW-SAM);智能体任务包括太阳物理知识问答和太阳图像识别分析问答。其中,JW-Flare是基于Qwen2-VL通过迁移学习实现的耀斑预测模型,各项指标达到领域内前沿水平,尤其是在预测X类耀斑时取得了最佳结果,JW-Flare准确识别了测试集中的所有79次X类耀斑,实现了TSS 95%,TPR 100%以及ACC 95%,这些结果证明了大模型在强耀斑预测方面的可靠性和精确性[4]。
结语
预测是一个综合历史趋势、分析当前形势、评估未来态势,并给出合情推断的科学研究过程,大模型在上述四个环节当中都具备了相当的能力,我们的实验也初步证明了大模型开展太阳耀斑预测的潜力。当然,我们也注意到目前训练使用的数据量还比较小、数据时间跨度较短、数据模态内容也比较少,这样的数据集对于多模态大模型训练来说是不充足的。因此,收集整理历史数据形成更长周期、更准确标注的AI-Ready太阳观测数据集和研制先进观测设备获得更高分辨率、更多谱段、更多维度、更多视角的数据具有基础意义。在更多更好的数据基础上,通过大模型与小模型结合、多模态与智能体融合等前沿技术手段,有希望进一步提升系统的耀斑预测能力、实现基于自主仪器数据的智能化耀斑预测方案落地。
参考文献:
来源:中国科学院国家天文台
编辑:未